論文の概要: Object as Query: Equipping Any 2D Object Detector with 3D Detection
Ability
- arxiv url: http://arxiv.org/abs/2301.02364v1
- Date: Fri, 6 Jan 2023 04:08:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 23:41:56.781748
- Title: Object as Query: Equipping Any 2D Object Detector with 3D Detection
Ability
- Title(参考訳): object as query: 任意の2dオブジェクト検出器に3d検出能力を備える
- Authors: Zitian Wang, Zehao Huang, Jiahui Fu, Naiyan Wang, Si Liu
- Abstract要約: マルチビュー画像からの3Dオブジェクト検出は、ここ数年で多くの注目を集めている。
既存の方法は、主に多視点画像から3D表現を確立し、オブジェクトをローカライズするために3D空間に分散されたオブジェクトクエリを使用する。
本稿では,多視点3次元物体検出装置(MV2D)を設計し,任意の2次元物体検出装置を装備して,多視点3次元物体検出の促進を図る。
- 参考スコア(独自算出の注目度): 25.940747700335383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection from multi-view images has drawn much attention over the
past few years. Existing methods mainly establish 3D representations from
multi-view images and adopt a dense detection head for object detection, or
employ object queries distributed in 3D space to localize objects. In this
paper, we design Multi-View 2D Objects guided 3D Object Detector (MV2D), which
can be equipped with any 2D object detector to promote multi-view 3D object
detection. Since 2D detections can provide valuable priors for object
existence, MV2D exploits 2D detector to generate object queries conditioned on
the rich image semantics. These dynamically generated queries enable MV2D to
detect objects in larger 3D space without increased computational costs and
shows a strong capability of localizing 3D objects. For the generated queries,
we design a sparse cross attention module to force them to focus on the
features of specific objects, which reduces the computational cost and
suppresses interference from noises. The evaluation results on the nuScenes
dataset demonstrate that dynamic object queries and sparse feature aggregation
do not harm 3D detection capability. MV2D also exhibits a state-of-the-art
performance among existing methods. We hope MV2D can serve as a new baseline
for future research.
- Abstract(参考訳): マルチビュー画像からの3Dオブジェクト検出は、ここ数年で注目されている。
既存の方法は、主に多視点画像から3D表現を確立し、オブジェクト検出に高密度な検出ヘッドを採用するか、オブジェクトをローカライズするために3D空間に分散されたオブジェクトクエリを使用する。
本稿では,多視点3次元物体検出装置(MV2D)を設計し,任意の2次元物体検出装置を装備して,多視点3次元物体検出の促進を図る。
MV2Dは2D検出器を利用して、リッチな画像意味論に基づくオブジェクトクエリを生成する。
これらの動的に生成されたクエリにより、MV2Dは計算コストを増大させることなくより大きな3D空間のオブジェクトを検出でき、3Dオブジェクトをローカライズする強力な能力を示す。
生成したクエリに対して,分散クロスアテンションモジュールを設計し,特定のオブジェクトの特徴に注目させることにより,計算コストを低減し,ノイズによる干渉を抑制する。
nuScenesデータセットの評価結果は、動的オブジェクトクエリとスパース特徴集約が3次元検出能力を損なわないことを示す。
MV2Dは既存の手法の中でも最先端の性能を示している。
MV2Dが将来の研究の新たなベースラインになることを期待している。
関連論文リスト
- SimPB: A Single Model for 2D and 3D Object Detection from Multiple Cameras [3.648972014796591]
ビュービュー内の2Dオブジェクトと、複数のカメラからBEV空間内の3Dオブジェクトを同時に検出するSimPBと呼ばれる単一のモデルを提案する。
ハイブリッドデコーダは複数のマルチビュー2Dデコーダ層と複数の3Dデコーダ層で構成され、それぞれの検出タスク用に特別に設計されている。
論文 参考訳(メタデータ) (2024-03-15T14:39:39Z) - Improving Distant 3D Object Detection Using 2D Box Supervision [97.80225758259147]
遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。
我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
論文 参考訳(メタデータ) (2024-03-14T09:54:31Z) - Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors [6.3557174349423455]
本稿では,2次元検出結果から3次元クエリアンカーを推定するQAF2Dという新しいクエリ生成手法を提案する。
QAF2DがnuScenesの検証サブセットにもたらす最大の改善は、NDSが2.3%、mAPが2.7%である。
論文 参考訳(メタデータ) (2024-03-10T04:38:27Z) - Object2Scene: Putting Objects in Context for Open-Vocabulary 3D
Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。
従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。
本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文 参考訳(メタデータ) (2023-09-18T03:31:53Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Multi-Task Multi-Sensor Fusion for 3D Object Detection [93.68864606959251]
本稿では,2次元および3次元物体検出と地盤推定と奥行き完了を理由とするエンドツーエンド学習可能なアーキテクチャを提案する。
実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。
論文 参考訳(メタデータ) (2020-12-22T22:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。