論文の概要: Multimodal Object Query Initialization for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2310.10353v1
- Date: Mon, 16 Oct 2023 12:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 14:38:51.104471
- Title: Multimodal Object Query Initialization for 3D Object Detection
- Title(参考訳): 3次元オブジェクト検出のためのマルチモーダルオブジェクトクエリ初期化
- Authors: Mathijs R. van Geerenstein, Felicia Ruppel, Klaus Dietmayer, Dariu M.
Gavrila
- Abstract要約: LiDARとカメラセンサーの両方の機能を利用する3Dオブジェクト検出モデルは、大規模な自動運転ベンチマークでトップパフォーマーである。
トランスは、このタスクに使用される一般的なネットワークアーキテクチャであり、いわゆるオブジェクトクエリが候補オブジェクトとして機能する。
変換器を用いた3次元オブジェクト検出モデルのためのオブジェクトクエリのための,効率的でモジュール的でマルチモーダルなソリューションであるEfficientQ3Mを提案する。
- 参考スコア(独自算出の注目度): 12.949272058147656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection models that exploit both LiDAR and camera sensor features
are top performers in large-scale autonomous driving benchmarks. A transformer
is a popular network architecture used for this task, in which so-called object
queries act as candidate objects. Initializing these object queries based on
current sensor inputs is a common practice. For this, existing methods strongly
rely on LiDAR data however, and do not fully exploit image features. Besides,
they introduce significant latency. To overcome these limitations we propose
EfficientQ3M, an efficient, modular, and multimodal solution for object query
initialization for transformer-based 3D object detection models. The proposed
initialization method is combined with a "modality-balanced" transformer
decoder where the queries can access all sensor modalities throughout the
decoder. In experiments, we outperform the state of the art in
transformer-based LiDAR object detection on the competitive nuScenes benchmark
and showcase the benefits of input-dependent multimodal query initialization,
while being more efficient than the available alternatives for LiDAR-camera
initialization. The proposed method can be applied with any combination of
sensor modalities as input, demonstrating its modularity.
- Abstract(参考訳): lidarとカメラセンサー機能を利用する3dオブジェクト検出モデルは、大規模な自動運転ベンチマークでトップパフォーマーです。
トランスは、このタスクに使用される一般的なネットワークアーキテクチャであり、いわゆるオブジェクトクエリが候補オブジェクトとして機能する。
現在のセンサ入力に基づいてこれらのオブジェクトクエリを初期化するのが一般的である。
そのため、既存の手法はLiDARデータに強く依存しており、画像の特徴を完全に活用していない。
さらに、大幅なレイテンシーも導入している。
これらの制限を克服するために、トランスフォーマーベースの3dオブジェクト検出モデルのオブジェクトクエリ初期化のための効率的でモジュラーでマルチモーダルなソリューションである efficientq3m を提案する。
提案手法は"モダリティバランス"トランスデコーダと組み合わされ,クエリはデコーダ全体のセンサモダリティすべてにアクセスできる。
実験では、コントラストnuScenesベンチマークにおいて、トランスフォーマーに基づくLiDARオブジェクト検出技術よりも優れ、入力依存型マルチモーダルクエリ初期化の利点を示すとともに、LiDARカメラの初期化のための選択肢よりも効率的である。
提案手法は,任意のセンサモダリティの組み合わせを入力として適用でき,そのモジュラリティを示すことができる。
関連論文リスト
- MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble [15.173314907900842]
既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。
我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。
我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
論文 参考訳(メタデータ) (2024-07-27T03:21:44Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - UnLoc: A Universal Localization Method for Autonomous Vehicles using
LiDAR, Radar and/or Camera Input [51.150605800173366]
UnLocは、全ての気象条件におけるマルチセンサー入力によるローカライズのための、新しい統一型ニューラルネットワークアプローチである。
本手法は,Oxford Radar RobotCar,Apollo SouthBay,Perth-WAの各データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-07-03T04:10:55Z) - SparseFusion: Fusing Multi-Modal Sparse Representations for Multi-Sensor
3D Object Detection [84.09798649295038]
物体がシーンのごく一部を占めることを考えると、密度の高い候補を見つけ、密度の高い表現を生成するのは騒々しく非効率である。
スパース候補とスパース表現のみを用いた新しいマルチセンサ3D検出法であるスパースフュージョンを提案する。
SparseFusionは、nuScenesベンチマークで最先端のパフォーマンスを達成しつつ、高速で動作し、バックボーンがより強力なメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-04-27T17:17:39Z) - FAQ: Feature Aggregated Queries for Transformer-based Video Object
Detectors [37.38250825377456]
我々は,ビデオオブジェクトの検出について異なる視点を採り,より詳しくは,トランスフォーマーベースのモデルに対するクエリのアグリゲーションによる品質向上を図っている。
ImageNet VIDベンチマークでは、提案したモジュールと統合した場合、現在の最先端のTransformerベースのオブジェクト検出器は、mAPでは2.4%以上、AP50では4.2%以上改善できる。
論文 参考訳(メタデータ) (2023-03-15T02:14:56Z) - HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object
Detection [0.0]
マルチモーダル2Dオブジェクト検出のためのモジュールアーキテクチャであるHRFuserを提案する。
マルチレゾリューション方式で複数のセンサーを融合させ、任意の数の入力モードにスケールする。
我々は、nuScenesとDENSEデータセットに関する実験を通じて、我々のモデルが追加のモーダルから補完的な特徴を効果的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-06-30T09:40:05Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。