Fugu-MT 論文翻訳(概要): Rethinking Range View Representation for LiDAR Segmentation

論文の概要: Rethinking Range View Representation for LiDAR Segmentation

arxiv url: http://arxiv.org/abs/2303.05367v3
Date: Sun, 3 Sep 2023 05:02:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 06:14:17.737674
Title: Rethinking Range View Representation for LiDAR Segmentation
Title（参考訳）: LiDARセグメンテーションにおける距離ビュー表現の再考
Authors: Lingdong Kong and Youquan Liu and Runnan Chen and Yuexin Ma and Xinge Zhu and Yikang Li and Yuenan Hou and Yu Qiao and Ziwei Liu
Abstract要約: 「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。 RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
参考スコア（独自算出の注目度）: 66.73116059734788
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: LiDAR segmentation is crucial for autonomous driving perception. Recent trends favor point- or voxel-based methods as they often yield better performance than the traditional range view representation. In this work, we unveil several key factors in building powerful range view models. We observe that the "many-to-one" mapping, semantic incoherence, and shape deformation are possible impediments against effective learning from range view projections. We present RangeFormer -- a full-cycle framework comprising novel designs across network architecture, data augmentation, and post-processing -- that better handles the learning and processing of LiDAR point clouds from the range view. We further introduce a Scalable Training from Range view (STR) strategy that trains on arbitrary low-resolution 2D range images, while still maintaining satisfactory 3D segmentation accuracy. We show that, for the first time, a range view method is able to surpass the point, voxel, and multi-view fusion counterparts in the competing LiDAR semantic and panoptic segmentation benchmarks, i.e., SemanticKITTI, nuScenes, and ScribbleKITTI.
Abstract（参考訳）: LiDARセグメンテーションは自律運転知覚に不可欠である。近年の傾向は、従来のレンジビュー表現よりもパフォーマンスが良い点やボクセルベースの手法が好まれている。本研究では,強力な視野モデルを構築する上で重要な要素をいくつか提示する。我々は,「一対一」マッピング,意味的不整合,形状変形が,射影からの効果的な学習を妨げる可能性があることを観察する。 RangeFormer(リンク) - ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含むフルサイクルのフレームワークで、レンジビューからLiDARポイントクラウドの学習と処理をより良く処理する。我々はさらに,任意の低解像度の2dレンジイメージをトレーニングしながら,良好な3dセグメンテーション精度を維持しながら,レンジビュー(str)ストラテジーからスケーラブルなトレーニングを導入する。そこで本研究では,ScribbleKITTI,SemanticKITTI,nuScenes,ScribbleKITTIと競合するLiDARセマンティックおよびパノプティクスセグメンテーションベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。

関連論文リスト

Label-Efficient LiDAR Semantic Segmentation with 2D-3D Vision Transformer Adapters [32.21090169762889]
BALViTは、凍結視覚モデルを利用して強力なLiDARエンコーダを学習するためのアモーダル機能エンコーダである。コードとモデルは、http://balvit.cs.uni-freiburg.deで公開しています。
論文参考訳（メタデータ） (2025-03-05T09:30:49Z)
FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。近年の手法では、レンジビュー表現を利用して処理効率を向上している。範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文参考訳（メタデータ） (2025-02-13T12:39:26Z)
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2025-01-07T18:59:59Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
Small, Versatile and Mighty: A Range-View Perception Framework [13.85089181673372]
本稿では,LiDARデータの3次元検出のための新しいマルチタスクフレームワークを提案する。我々のフレームワークは,LiDARポイントクラウドのためのセグメンテーションとパノプティクスセグメンテーションタスクを統合している。レンジビューに基づく手法の中で,本モデルでは,Openデータセット上での新たな最先端検出性能を実現する。
論文参考訳（メタデータ） (2024-03-01T07:02:42Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
Few-Shot Panoptic Segmentation With Foundation Models [23.231014713335664]
約0ラベルのSegmenting Panoptic Information(SPINO)を提示することで、タスク非依存の画像特徴を活用して、少ショットのパノプティクスセグメンテーションを可能にすることを提案する。本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。
論文参考訳（メタデータ） (2023-09-19T16:09:01Z)
Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文参考訳（メタデータ） (2022-11-15T13:52:41Z)
Image Understands Point Cloud: Weakly Supervised 3D Semantic Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文参考訳（メタデータ） (2022-09-16T07:59:04Z)
Panoptic-PHNet: Towards Real-Time and High-Precision LiDAR Panoptic Segmentation via Clustering Pseudo Heatmap [9.770808277353128]
本稿では,Panoptic-PHNetと呼ばれる高速かつ高性能なLiDARベースのフレームワークを提案する。我々は、クラスタリング擬似ヒートマップを新しいパラダイムとして導入し、それに続いて、集中型グループ化モジュールが、効率的なクラスタリングのためにインスタンスセンタを生成する。バックボーンデザインでは、細粒度のボクセル機能と2D Bird's Eye View (BEV)機能を異なる受容領域に融合し、詳細情報とグローバル情報の両方を利用する。
論文参考訳（メタデータ） (2022-05-14T08:16:13Z)
Vis2Mesh: Efficient Mesh Reconstruction from Unstructured Point Clouds of Large Scenes with Learned Virtual View Visibility [17.929307870456416]
非構造点雲からのメッシュ再構築のための新しいフレームワークを提案する。仮想ビューと従来のグラフカットベースのメッシュ生成において、学習した3Dポイントの可視性を活用します。
論文参考訳（メタデータ） (2021-08-18T20:28:16Z)
RPVNet: A Deep and Efficient Range-Point-Voxel Fusion Network for LiDAR Point Cloud Segmentation [28.494690309193068]
RPVNetと呼ばれる、新しいレンジポイント・ボクセル融合ネットワークを提案する。このネットワークでは,これら3つの視点を相互に相互に相互作用する深層融合フレームワークを考案する。この効率的な相互作用と比較的低いボクセル解像度を利用することで、より効率的であることが証明された。
論文参考訳（メタデータ） (2021-03-24T04:24:12Z)
Pluggable Weakly-Supervised Cross-View Learning for Accurate Vehicle Re-Identification [53.6218051770131]
クロスビューの一貫した機能表現は、正確な車両ReIDの鍵です。既存のアプローチは、広範な余分な視点アノテーションを使用して、クロスビュー学習を監督する。 Weakly-supervised Cross-View Learning (WCVL) モジュールを車載用として提案する。
論文参考訳（メタデータ） (2021-03-09T11:51:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。