Fugu-MT 論文翻訳(概要): Roadside Monocular 3D Detection via 2D Detection Prompting

論文の概要: Roadside Monocular 3D Detection via 2D Detection Prompting

arxiv url: http://arxiv.org/abs/2404.01064v1
Date: Mon, 1 Apr 2024 11:57:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 22:35:23.908195
Title: Roadside Monocular 3D Detection via 2D Detection Prompting
Title（参考訳）: 2次元検出プロンプティングによる路面単分子3次元検出
Authors: Yechi Ma, Shuoquan Wei, Churun Zhang, Wei Hua, Yanan Li, Shu Kong,
Abstract要約: 本稿では,2次元検出を用いて3次元検出器を誘導する手法を提案する。提案手法は,3次元検出器と比較して2次元検出器の訓練がはるかに容易であり,2次元画像平面上でのWr.t検出の精度が著しく向上する,という重要な知見に基づいている。
参考スコア（独自算出の注目度）: 11.511202614683388
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The problem of roadside monocular 3D detection requires detecting objects of interested classes in a 2D RGB frame and predicting their 3D information such as locations in bird's-eye-view (BEV). It has broad applications in traffic control, vehicle-vehicle communication, and vehicle-infrastructure cooperative perception. To approach this problem, we present a novel and simple method by prompting the 3D detector using 2D detections. Our method builds on a key insight that, compared with 3D detectors, a 2D detector is much easier to train and performs significantly better w.r.t detections on the 2D image plane. That said, one can exploit 2D detections of a well-trained 2D detector as prompts to a 3D detector, being trained in a way of inflating such 2D detections to 3D towards 3D detection. To construct better prompts using the 2D detector, we explore three techniques: (a) concatenating both 2D and 3D detectors' features, (b) attentively fusing 2D and 3D detectors' features, and (c) encoding predicted 2D boxes x, y, width, height, label and attentively fusing such with the 3D detector's features. Surprisingly, the third performs the best. Moreover, we present a yaw tuning tactic and a class-grouping strategy that merges classes based on their functionality; these techniques improve 3D detection performance further. Comprehensive ablation studies and extensive experiments demonstrate that our method resoundingly outperforms prior works, achieving the state-of-the-art on two large-scale roadside 3D detection benchmarks.
Abstract（参考訳）: 道路側モノクル3D検出の問題は、2D RGBフレーム内の興味あるクラスのオブジェクトを検出し、鳥の目視(BEV)の場所のようなそれらの3D情報を予測することである。交通制御、車両と車両の通信、車両とインフラの協調的な知覚に広く応用されている。この問題に対処するために, 2次元検出を用いて3次元検出器を誘導し, 新規かつ簡便な手法を提案する。提案手法は,3次元検出器と比較して2次元検出器の訓練がはるかに容易であり,2次元画像平面上でのWr.t検出の精度が著しく向上する,という重要な知見に基づいている。とはいえ、よく訓練された2D検出器の2D検出を3D検出器に誘導し、そのような2D検出を3D検出に向けて膨らませる方法で訓練することができる。 2D検出器を用いてより優れたプロンプトを構築するために、3つの手法を探索する。 (a)2D検出器と3D検出器の両方の特徴を連結すること。 (b)2次元・3次元検出器の特徴を注意深く融合させ、 (c) 予測された2Dボックス x, y, 幅, 高さ, ラベルを3D検出器の特徴と密接に融合させる。意外なことに、三人目は最高の成績を収めている。さらに,これらの手法により3次元検出性能が向上し,それらの機能に基づいてクラスをマージするヨウチューニング戦略とクラスグループ化戦略を提案する。包括的アブレーション研究と広範囲な実験により,本手法は従来の手法よりも優れており,大規模道路側3次元検出ベンチマークの最先端を達成できた。

関連論文リスト

SegDINO3D: 3D Instance Segmentation Empowered by Both Image-Level and Object-Level 2D Features [61.13570953713554]
SegDINO3Dは、3Dインスタンスセグメンテーションのためのトランスフォーマーエンコーダデコーダフレームワークである。画像レベルとオブジェクトレベルの両方の機能を含む、事前訓練された2D検出モデルから2D表現を完全に活用する。 SegDINO3Dは、ScanNetV2とScanNet200インスタンスセグメンテーションベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-09-19T15:41:10Z)
3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [58.78881632019072]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文参考訳（メタデータ） (2025-07-31T13:56:41Z)
Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。 OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文参考訳（メタデータ） (2024-11-23T21:37:21Z)
ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels Only [5.699475977818167]
3Dオブジェクト検出は、自動運転車、ロボット工学、拡張現実など、さまざまな応用において重要な役割を果たす。画像から2次元境界ボックスアノテーションにのみ依存する弱教師付き3次元アノテータを提案する。
論文参考訳（メタデータ） (2024-07-24T11:58:31Z)
Improving Distant 3D Object Detection Using 2D Box Supervision [97.80225758259147]
遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
論文参考訳（メタデータ） (2024-03-14T09:54:31Z)
Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors [6.3557174349423455]
本稿では,2次元検出結果から3次元クエリアンカーを推定するQAF2Dという新しいクエリ生成手法を提案する。 QAF2DがnuScenesの検証サブセットにもたらす最大の改善は、NDSが2.3%、mAPが2.7%である。
論文参考訳（メタデータ） (2024-03-10T04:38:27Z)
Towards 3D Object Detection with 2D Supervision [13.444432119639822]
大規模2次元ラベルを用いた視覚的3次元物体検出器の学習を可能にするハイブリッドトレーニングフレームワークを提案する。本稿では3次元予測を時間的2次元ラベルでブリッジする時間的2次元変換を提案する。 nuScenesデータセットで実施された実験は、25%の3Dアノテーションで、強い結果(完全に教師されたパフォーマンスの90%近く)を示した。
論文参考訳（メタデータ） (2022-11-15T16:40:11Z)
Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文参考訳（メタデータ） (2022-04-02T03:48:03Z)
FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。 2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文参考訳（メタデータ） (2021-05-17T07:29:55Z)
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文参考訳（メタデータ） (2021-04-22T09:35:35Z)
3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文参考訳（メタデータ） (2021-04-06T02:22:24Z)
YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection [6.5702792909006735]
YOLOStereo3Dは1つのGPUでトレーニングされ、10fps以上で動作する。 LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。
論文参考訳（メタデータ） (2021-03-17T03:43:54Z)
DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文参考訳（メタデータ） (2020-01-10T11:44:37Z)
RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文参考訳（メタデータ） (2020-01-10T08:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。