論文の概要: Object as Query: Lifting any 2D Object Detector to 3D Detection
- arxiv url: http://arxiv.org/abs/2301.02364v3
- Date: Mon, 6 Nov 2023 04:37:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 01:17:45.794079
- Title: Object as Query: Lifting any 2D Object Detector to 3D Detection
- Title(参考訳): object as query: 任意の2dオブジェクト検出器を3d検出へ持ち上げる
- Authors: Zitian Wang, Zehao Huang, Jiahui Fu, Naiyan Wang, Si Liu
- Abstract要約: マルチビュー2Dオブジェクトガイド3Dオブジェクト検出器(MV2D)を設計する。
MV2Dは2D検出器を利用してリッチな画像意味論に基づくオブジェクトクエリを生成する。
生成されたクエリに対して、特定のオブジェクトの特徴にフォーカスするように、スパースなクロスアテンションモジュールを設計する。
- 参考スコア(独自算出の注目度): 30.393111518104313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection from multi-view images has drawn much attention over the
past few years. Existing methods mainly establish 3D representations from
multi-view images and adopt a dense detection head for object detection, or
employ object queries distributed in 3D space to localize objects. In this
paper, we design Multi-View 2D Objects guided 3D Object Detector (MV2D), which
can lift any 2D object detector to multi-view 3D object detection. Since 2D
detections can provide valuable priors for object existence, MV2D exploits 2D
detectors to generate object queries conditioned on the rich image semantics.
These dynamically generated queries help MV2D to recall objects in the field of
view and show a strong capability of localizing 3D objects. For the generated
queries, we design a sparse cross attention module to force them to focus on
the features of specific objects, which suppresses interference from noises.
The evaluation results on the nuScenes dataset demonstrate the dynamic object
queries and sparse feature aggregation can promote 3D detection capability.
MV2D also exhibits a state-of-the-art performance among existing methods. We
hope MV2D can serve as a new baseline for future research. Code is available at
\url{https://github.com/tusen-ai/MV2D}.
- Abstract(参考訳): マルチビュー画像からの3Dオブジェクト検出は、ここ数年で注目されている。
既存の方法は、主に多視点画像から3D表現を確立し、オブジェクト検出に高密度な検出ヘッドを採用するか、オブジェクトをローカライズするために3D空間に分散されたオブジェクトクエリを使用する。
本稿では,多視点3次元物体検出装置(MV2D)を設計し,任意の2次元物体検出器を多視点3次元物体検出へ持ち上げる。
MV2Dは2D検出器を利用して、リッチな画像意味論に基づくオブジェクトクエリを生成する。
これらの動的に生成されたクエリはmv2dが視野内のオブジェクトをリコールし、3dオブジェクトをローカライズする強力な能力を示すのに役立つ。
生成したクエリに対しては、ノイズからの干渉を抑制する特定のオブジェクトの特徴に焦点を合わせるように、スパースクロスアテンションモジュールを設計します。
nuscenesデータセットの評価結果は動的オブジェクトクエリを示し、スパース特徴集約は3次元検出能力を促進することができる。
MV2Dは既存の手法の中でも最先端の性能を示している。
MV2Dが将来の研究の新たなベースラインになることを期待している。
コードは \url{https://github.com/tusen-ai/MV2D} で入手できる。
関連論文リスト
- SimPB: A Single Model for 2D and 3D Object Detection from Multiple Cameras [3.648972014796591]
ビュービュー内の2Dオブジェクトと、複数のカメラからBEV空間内の3Dオブジェクトを同時に検出するSimPBと呼ばれる単一のモデルを提案する。
ハイブリッドデコーダは複数のマルチビュー2Dデコーダ層と複数の3Dデコーダ層で構成され、それぞれの検出タスク用に特別に設計されている。
論文 参考訳(メタデータ) (2024-03-15T14:39:39Z) - Improving Distant 3D Object Detection Using 2D Box Supervision [97.80225758259147]
遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。
我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
論文 参考訳(メタデータ) (2024-03-14T09:54:31Z) - Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors [6.3557174349423455]
本稿では,2次元検出結果から3次元クエリアンカーを推定するQAF2Dという新しいクエリ生成手法を提案する。
QAF2DがnuScenesの検証サブセットにもたらす最大の改善は、NDSが2.3%、mAPが2.7%である。
論文 参考訳(メタデータ) (2024-03-10T04:38:27Z) - Object2Scene: Putting Objects in Context for Open-Vocabulary 3D
Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。
従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。
本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文 参考訳(メタデータ) (2023-09-18T03:31:53Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Multi-Task Multi-Sensor Fusion for 3D Object Detection [93.68864606959251]
本稿では,2次元および3次元物体検出と地盤推定と奥行き完了を理由とするエンドツーエンド学習可能なアーキテクチャを提案する。
実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。
論文 参考訳(メタデータ) (2020-12-22T22:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。