論文の概要: OBMO: One Bounding Box Multiple Objects for Monocular 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2212.10049v1
- Date: Tue, 20 Dec 2022 07:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:25:41.147073
- Title: OBMO: One Bounding Box Multiple Objects for Monocular 3D Object
Detection
- Title(参考訳): obmo: 1つのバウンディングボックスによるモノクロ3dオブジェクト検出
- Authors: Chenxi Huang, Tong He, Haidong Ren, Wenxiao Wang, Binbin Lin, Deng Cai
- Abstract要約: 単分子3D物体検出は、単純な構成のため、多くの注目を集めている。
本稿では,単眼画像の異常な性質が奥行きの曖昧さに繋がることを見出した。
本研究では,深度学習を容易にするためのプラグイン・アンド・プレイモジュールであるOne Bounding Box Multiple Objects (OBMO)を提案する。
本手法は,最先端のモノクル3D検出器を顕著なマージンで大幅に改善する。
- 参考スコア(独自算出の注目度): 34.069515174154816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared to typical multi-sensor systems, monocular 3D object detection has
attracted much attention due to its simple configuration. However, there is
still a significant gap between LiDAR-based and monocular-based methods. In
this paper, we find that the ill-posed nature of monocular imagery can lead to
depth ambiguity. Specifically, objects with different depths can appear with
the same bounding boxes and similar visual features in the 2D image.
Unfortunately, the network cannot accurately distinguish different depths from
such non-discriminative visual features, resulting in unstable depth training.
To facilitate depth learning, we propose a simple yet effective plug-and-play
module, One Bounding Box Multiple Objects (OBMO). Concretely, we add a set of
suitable pseudo labels by shifting the 3D bounding box along the viewing
frustum. To constrain the pseudo-3D labels to be reasonable, we carefully
design two label scoring strategies to represent their quality. In contrast to
the original hard depth labels, such soft pseudo labels with quality scores
allow the network to learn a reasonable depth range, boosting training
stability and thus improving final performance. Extensive experiments on KITTI
and Waymo benchmarks show that our method significantly improves
state-of-the-art monocular 3D detectors by a significant margin (The
improvements under the moderate setting on KITTI validation set are
$\mathbf{1.82\sim 10.91\%}$ mAP in BEV and $\mathbf{1.18\sim 9.36\%}$ mAP in
3D}. Codes have been released at https://github.com/mrsempress/OBMO.
- Abstract(参考訳): 一般的なマルチセンサーシステムと比較すると、単純な構成のため、単眼の3D物体検出が注目されている。
しかし、LiDAR法と単分子法の間にはまだ大きなギャップがある。
本稿では,単眼画像の異常な性質が奥行きの曖昧さにつながることを明らかにする。
具体的には、異なる深さの物体は、同じ境界ボックスと2D画像に類似した視覚的特徴で現れる。
残念ながら、ネットワークはそのような非識別的な視覚的特徴と正確に区別することができず、不安定な深度トレーニングをもたらす。
深度学習を容易にするために, シンプルで効果的なプラグイン・アンド・プレイモジュールであるOne Bounding Box Multiple Objects (OBMO)を提案する。
具体的には、3D境界ボックスをファスタムに沿ってシフトすることで、適切な擬似ラベルのセットを追加する。
疑似3dラベルを合理的に制限するために、品質を表すために2つのラベルスコア戦略を慎重に設計する。
もともとのハードディープラベルとは対照的に、品質スコアを持つソフトな擬似ラベルは、ネットワークが適切なディープ範囲を学習し、トレーニングの安定性を高め、最終的なパフォーマンスを向上させることができる。
KITTI と Waymo ベンチマークの大規模な実験により,我々の手法は最先端のモノクル3D検出器を顕著なマージンで大幅に改善した(KITTI 検証セットの適度な設定による改善は BEV の mAP と 3D の mAP と $\mathbf{1.18\sim 9.36\%} である)。
コードはhttps://github.com/mrsempress/OBMO.comでリリースされた。
関連論文リスト
- Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [81.68608983602581]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Attention-Based Depth Distillation with 3D-Aware Positional Encoding for
Monocular 3D Object Detection [10.84784828447741]
ADDは、3D対応の位置符号化を備えた注意に基づく深度知識蒸留フレームワークである。
教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。
我々は,3つの代表的な単分子検出器上でのフレームワークを実装し,予測計算コストの増大を伴わず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-30T06:39:25Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - DetMatch: Two Teachers are Better Than One for Joint 2D and 3D
Semi-Supervised Object Detection [29.722784254501768]
DetMatchは、2Dおよび3Dモダリティに関する共同半教師付き学習のための柔軟なフレームワークである。
両方のセンサーで検出された物体を識別することで、パイプラインはよりクリーンで堅牢な擬似ラベルを生成する。
我々はRGB画像のよりリッチなセマンティクスを活用して、誤った3Dクラスの予測を修正し、3Dボックスのローカライズを改善する。
論文 参考訳(メタデータ) (2022-03-17T17:58:00Z) - WeakM3D: Towards Weakly Supervised Monocular 3D Object Detection [29.616568669869206]
既存のモノクロ3D検出方法は、LiDAR点雲上の手動で注釈付けされた3Dボックスラベルに依存している。
本稿では,まず画像上の2Dボックスをまず検出し,次に生成された2Dボックスを用いて,対応するRoI LiDAR点を弱監視として選択する。
このネットワークは、新たに提案した3Dボックス推定値と対応するRoI LiDAR点とのアライメント損失を最小化することによって学習される。
論文 参考訳(メタデータ) (2022-03-16T00:37:08Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。