Fugu-MT 論文翻訳(概要): Object as Query: Equipping Any 2D Object Detector with 3D Detection Ability

論文の概要: Object as Query: Equipping Any 2D Object Detector with 3D Detection Ability

arxiv url: http://arxiv.org/abs/2301.02364v1
Date: Fri, 6 Jan 2023 04:08:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-09 23:41:56.781748
Title: Object as Query: Equipping Any 2D Object Detector with 3D Detection Ability
Title（参考訳）: object as query: 任意の2dオブジェクト検出器に3d検出能力を備える
Authors: Zitian Wang, Zehao Huang, Jiahui Fu, Naiyan Wang, Si Liu
Abstract要約: マルチビュー画像からの3Dオブジェクト検出は、ここ数年で多くの注目を集めている。既存の方法は、主に多視点画像から3D表現を確立し、オブジェクトをローカライズするために3D空間に分散されたオブジェクトクエリを使用する。本稿では,多視点3次元物体検出装置(MV2D)を設計し,任意の2次元物体検出装置を装備して,多視点3次元物体検出の促進を図る。
参考スコア（独自算出の注目度）: 25.940747700335383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D object detection from multi-view images has drawn much attention over the past few years. Existing methods mainly establish 3D representations from multi-view images and adopt a dense detection head for object detection, or employ object queries distributed in 3D space to localize objects. In this paper, we design Multi-View 2D Objects guided 3D Object Detector (MV2D), which can be equipped with any 2D object detector to promote multi-view 3D object detection. Since 2D detections can provide valuable priors for object existence, MV2D exploits 2D detector to generate object queries conditioned on the rich image semantics. These dynamically generated queries enable MV2D to detect objects in larger 3D space without increased computational costs and shows a strong capability of localizing 3D objects. For the generated queries, we design a sparse cross attention module to force them to focus on the features of specific objects, which reduces the computational cost and suppresses interference from noises. The evaluation results on the nuScenes dataset demonstrate that dynamic object queries and sparse feature aggregation do not harm 3D detection capability. MV2D also exhibits a state-of-the-art performance among existing methods. We hope MV2D can serve as a new baseline for future research.
Abstract（参考訳）: マルチビュー画像からの3Dオブジェクト検出は、ここ数年で注目されている。既存の方法は、主に多視点画像から3D表現を確立し、オブジェクト検出に高密度な検出ヘッドを採用するか、オブジェクトをローカライズするために3D空間に分散されたオブジェクトクエリを使用する。本稿では,多視点3次元物体検出装置(MV2D)を設計し,任意の2次元物体検出装置を装備して,多視点3次元物体検出の促進を図る。 MV2Dは2D検出器を利用して、リッチな画像意味論に基づくオブジェクトクエリを生成する。これらの動的に生成されたクエリにより、MV2Dは計算コストを増大させることなくより大きな3D空間のオブジェクトを検出でき、3Dオブジェクトをローカライズする強力な能力を示す。生成したクエリに対して,分散クロスアテンションモジュールを設計し,特定のオブジェクトの特徴に注目させることにより,計算コストを低減し,ノイズによる干渉を抑制する。 nuScenesデータセットの評価結果は、動的オブジェクトクエリとスパース特徴集約が3次元検出能力を損なわないことを示す。 MV2Dは既存の手法の中でも最先端の性能を示している。 MV2Dが将来の研究の新たなベースラインになることを期待している。

関連論文リスト

SegDINO3D: 3D Instance Segmentation Empowered by Both Image-Level and Object-Level 2D Features [61.13570953713554]
SegDINO3Dは、3Dインスタンスセグメンテーションのためのトランスフォーマーエンコーダデコーダフレームワークである。画像レベルとオブジェクトレベルの両方の機能を含む、事前訓練された2D検出モデルから2D表現を完全に活用する。 SegDINO3Dは、ScanNetV2とScanNet200インスタンスセグメンテーションベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-09-19T15:41:10Z)
3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [58.78881632019072]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文参考訳（メタデータ） (2025-07-31T13:56:41Z)
Roadside Monocular 3D Detection Prompted by 2D Detection [13.085987471715725]
本稿では,プロンプタブル3D検出器(Promptable 3D Detector, Pro3D)を紹介する。 Pro3Dは、最小限の修正で広範囲の2Dおよび3D検出器での使用に適応できる。
論文参考訳（メタデータ） (2024-04-01T11:57:34Z)
SimPB: A Single Model for 2D and 3D Object Detection from Multiple Cameras [3.648972014796591]
ビュービュー内の2Dオブジェクトと、複数のカメラからBEV空間内の3Dオブジェクトを同時に検出するSimPBと呼ばれる単一のモデルを提案する。ハイブリッドデコーダは複数のマルチビュー2Dデコーダ層と複数の3Dデコーダ層で構成され、それぞれの検出タスク用に特別に設計されている。
論文参考訳（メタデータ） (2024-03-15T14:39:39Z)
Improving Distant 3D Object Detection Using 2D Box Supervision [97.80225758259147]
遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
論文参考訳（メタデータ） (2024-03-14T09:54:31Z)
Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors [6.3557174349423455]
本稿では,2次元検出結果から3次元クエリアンカーを推定するQAF2Dという新しいクエリ生成手法を提案する。 QAF2DがnuScenesの検証サブセットにもたらす最大の改善は、NDSが2.3%、mAPが2.7%である。
論文参考訳（メタデータ） (2024-03-10T04:38:27Z)
Object2Scene: Putting Objects in Context for Open-Vocabulary 3D Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文参考訳（メタデータ） (2023-09-18T03:31:53Z)
Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文参考訳（メタデータ） (2023-06-08T17:58:45Z)
OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文参考訳（メタデータ） (2023-01-13T06:02:31Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)
M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文参考訳（メタデータ） (2021-03-24T13:09:11Z)
Multi-Task Multi-Sensor Fusion for 3D Object Detection [93.68864606959251]
本稿では,2次元および3次元物体検出と地盤推定と奥行き完了を理由とするエンドツーエンド学習可能なアーキテクチャを提案する。実験の結果,これらのタスクは相補的であり,様々なレベルで情報を融合することで,ネットワークがよりよい表現を学ぶのに役立つことがわかった。
論文参考訳（メタデータ） (2020-12-22T22:49:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。