論文の概要: Roadside Monocular 3D Detection Prompted by 2D Detection
- arxiv url: http://arxiv.org/abs/2404.01064v3
- Date: Tue, 15 Jul 2025 01:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.665507
- Title: Roadside Monocular 3D Detection Prompted by 2D Detection
- Title(参考訳): 2次元検出による路面モノクロ3次元検出
- Authors: Yechi Ma, Yanan Li, Wei Hua, Shu Kong,
- Abstract要約: 本稿では,プロンプタブル3D検出器(Promptable 3D Detector, Pro3D)を紹介する。
Pro3Dは、最小限の修正で広範囲の2Dおよび3D検出器での使用に適応できる。
- 参考スコア(独自算出の注目度): 13.085987471715725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Roadside monocular 3D detection requires detecting objects of predefined classes in an RGB frame and predicting their 3D attributes, such as bird's-eye-view (BEV) locations. It has broad applications in traffic control, vehicle-vehicle communication, and vehicle-infrastructure cooperative perception. To address this task, we introduce Promptable 3D Detector (Pro3D), a novel detector design that leverages 2D detections as prompts. We build our Pro3D upon two key insights. First, compared to a typical 3D detector, a 2D detector is ``easier'' to train due to fewer loss terms and performs significantly better at localizing objects w.r.t 2D metrics. Second, once 2D detections precisely locate objects in the image, a 3D detector can focus on lifting these detections into 3D BEV, especially when fixed camera pose or scene geometry provide an informative prior. To encode and incorporate 2D detections, we explore three methods: (a) concatenating features from both 2D and 3D detectors, (b) attentively fusing 2D and 3D detector features, and (c) encoding properties of predicted 2D bounding boxes \{$x$, $y$, width, height, label\} and attentively fusing them with the 3D detector feature. Interestingly, the third method significantly outperforms the others, underscoring the effectiveness of 2D detections as prompts that offer precise object targets and allow the 3D detector to focus on lifting them into 3D. Pro3D is adaptable for use with a wide range of 2D and 3D detectors with minimal modifications. Comprehensive experiments demonstrate that our Pro3D significantly enhances existing methods, achieving state-of-the-art results on two contemporary benchmarks.
- Abstract(参考訳): ロードサイドのモノクロ3D検出では、RGBフレーム内の事前に定義されたクラスのオブジェクトを検出し、鳥の目視(BEV)位置などの3D属性を予測する必要がある。
交通制御、車両と車両の通信、車両とインフラの協調的な知覚に広く応用されている。
この課題に対処するために,2次元検出をプロンプトとして活用する新しい検出器であるPromptable 3D Detector (Pro3D)を導入する。
私たちは2つの重要な洞察に基づいてPro3Dを構築します。
第一に、典型的な3D検出器と比較して、2D検出器は損失項の少ないため訓練が'easier'であり、2D測定値のローカライズに優れていた。
第二に、2D検出が画像中の物体を正確に検出すると、3D検出器はこれらの検出を3D BEVに持ち上げることに焦点を合わせることができる。
2次元検出を符号化し、組み込むには、3つの方法を検討する。
(a)2次元検出器と3次元検出器の両方の特徴の連結
(b)2次元・3次元検出器の特徴を注意深く融合させ、
(c) 予測2次元有界箱{{$x$,$y$, width, height, label\} の符号化特性を3次元検出器の特徴と密接に融合させる。
興味深いことに、第3の方法は他よりもはるかに優れており、2D検出の有効性を、正確な対象物を提供し、3D検出器がそれらを3Dに持ち上げることに焦点を合わせるプロンプトとして強調している。
Pro3Dは、最小限の修正で広範囲の2Dおよび3D検出器での使用に適応できる。
総合的な実験により、我々のPro3Dは既存の手法を大幅に強化し、2つの現代のベンチマークで最先端の結果を得ることを示した。
関連論文リスト
- 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [58.78881632019072]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels Only [5.699475977818167]
3Dオブジェクト検出は、自動運転車、ロボット工学、拡張現実など、さまざまな応用において重要な役割を果たす。
画像から2次元境界ボックスアノテーションにのみ依存する弱教師付き3次元アノテータを提案する。
論文 参考訳(メタデータ) (2024-07-24T11:58:31Z) - Improving Distant 3D Object Detection Using 2D Box Supervision [97.80225758259147]
遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。
我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
論文 参考訳(メタデータ) (2024-03-14T09:54:31Z) - Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors [6.3557174349423455]
本稿では,2次元検出結果から3次元クエリアンカーを推定するQAF2Dという新しいクエリ生成手法を提案する。
QAF2DがnuScenesの検証サブセットにもたらす最大の改善は、NDSが2.3%、mAPが2.7%である。
論文 参考訳(メタデータ) (2024-03-10T04:38:27Z) - Towards 3D Object Detection with 2D Supervision [13.444432119639822]
大規模2次元ラベルを用いた視覚的3次元物体検出器の学習を可能にするハイブリッドトレーニングフレームワークを提案する。
本稿では3次元予測を時間的2次元ラベルでブリッジする時間的2次元変換を提案する。
nuScenesデータセットで実施された実験は、25%の3Dアノテーションで、強い結果(完全に教師されたパフォーマンスの90%近く)を示した。
論文 参考訳(メタデータ) (2022-11-15T16:40:11Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection [6.5702792909006735]
YOLOStereo3Dは1つのGPUでトレーニングされ、10fps以上で動作する。
LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-03-17T03:43:54Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z) - RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文 参考訳(メタデータ) (2020-01-10T08:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。