論文の概要: Small, Versatile and Mighty: A Range-View Perception Framework
- arxiv url: http://arxiv.org/abs/2403.00325v1
- Date: Fri, 1 Mar 2024 07:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:54:09.629113
- Title: Small, Versatile and Mighty: A Range-View Perception Framework
- Title(参考訳): small, versatile and mighty: レンジビュー知覚フレームワーク
- Authors: Qiang Meng, Xiao Wang, JiaBao Wang, Liujiang Yan, Ke Wang
- Abstract要約: 本稿では,LiDARデータの3次元検出のための新しいマルチタスクフレームワークを提案する。
我々のフレームワークは,LiDARポイントクラウドのためのセグメンテーションとパノプティクスセグメンテーションタスクを統合している。
レンジビューに基づく手法の中で,本モデルでは,Openデータセット上での新たな最先端検出性能を実現する。
- 参考スコア(独自算出の注目度): 13.85089181673372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite its compactness and information integrity, the range view
representation of LiDAR data rarely occurs as the first choice for 3D
perception tasks. In this work, we further push the envelop of the range-view
representation with a novel multi-task framework, achieving unprecedented 3D
detection performances. Our proposed Small, Versatile, and Mighty (SVM) network
utilizes a pure convolutional architecture to fully unleash the efficiency and
multi-tasking potentials of the range view representation. To boost detection
performances, we first propose a range-view specific Perspective Centric Label
Assignment (PCLA) strategy, and a novel View Adaptive Regression (VAR) module
to further refine hard-to-predict box properties. In addition, our framework
seamlessly integrates semantic segmentation and panoptic segmentation tasks for
the LiDAR point cloud, without extra modules. Among range-view-based methods,
our model achieves new state-of-the-art detection performances on the Waymo
Open Dataset. Especially, over 10 mAP improvement over convolutional
counterparts can be obtained on the vehicle class. Our presented results for
other tasks further reveal the multi-task capabilities of the proposed small
but mighty framework.
- Abstract(参考訳): コンパクトさと情報の整合性にもかかわらず、LiDARデータのレンジビュー表現が3D知覚タスクの最初の選択として発生することは滅多にない。
本研究では,新しいマルチタスクフレームワークによるレンジビュー表現の展開をさらに進め,前例のない3次元検出性能を実現する。
提案するsvm(small, versatile, and mighty)ネットワークは,純粋に畳み込み型アーキテクチャを用いて,範囲ビュー表現の効率性とマルチタスクポテンシャルを完全に解き放つ。
検出性能を向上させるために,まず,pcla(range-view specific perspective centric label assignment)戦略と,予測の難しいボックス特性をさらに洗練するための新しいview adaptive regression(var)モジュールを提案する。
さらに,我々のフレームワークは,余分なモジュールを使わずに,LiDARポイントクラウドのセグメンテーションとパノプティックセグメンテーションタスクをシームレスに統合する。
範囲ビューに基づく手法では,waymo open dataset上で新たな最先端検出性能を実現する。
特に、車両のクラスでは、畳み込み式よりも10mAP以上の改善が得られる。
また,提案する小規模だが強力なフレームワークのマルチタスク機能についても検討した。
関連論文リスト
- Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception
Network for Autonomous Driving [7.137567622606353]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR
Perception [15.919789515451615]
変換器に基づく新しいLiDARマルチタスク学習パラダイムを提案する。
LiDARFormerはクロスタスクのシナジーを利用して、LiDAR知覚タスクのパフォーマンスを向上させる。
LiDARFormerは3D検出とセマンティックセグメンテーションの両方のために、大規模なnuScenesとOpenデータセットで評価されている。
論文 参考訳(メタデータ) (2023-03-21T20:52:02Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。