論文の概要: OBMO: One Bounding Box Multiple Objects for Monocular 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2212.10049v2
- Date: Tue, 20 Feb 2024 08:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 21:40:58.703715
- Title: OBMO: One Bounding Box Multiple Objects for Monocular 3D Object
Detection
- Title(参考訳): obmo: 1つのバウンディングボックスによるモノクロ3dオブジェクト検出
- Authors: Chenxi Huang, Tong He, Haidong Ren, Wenxiao Wang, Binbin Lin, Deng Cai
- Abstract要約: 単分子3D物体検出は、単純な構成のため、多くの注目を集めている。
本稿では,単眼画像の異常な性質が奥行きの曖昧さに繋がることを見出した。
We propose a plug-and-play module, underlineOne underlineBounding Box underlineMultiple underlineObjects (OBMO)。
- 参考スコア(独自算出の注目度): 24.9579490539696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared to typical multi-sensor systems, monocular 3D object detection has
attracted much attention due to its simple configuration. However, there is
still a significant gap between LiDAR-based and monocular-based methods. In
this paper, we find that the ill-posed nature of monocular imagery can lead to
depth ambiguity. Specifically, objects with different depths can appear with
the same bounding boxes and similar visual features in the 2D image.
Unfortunately, the network cannot accurately distinguish different depths from
such non-discriminative visual features, resulting in unstable depth training.
To facilitate depth learning, we propose a simple yet effective plug-and-play
module, \underline{O}ne \underline{B}ounding Box \underline{M}ultiple
\underline{O}bjects (OBMO). Concretely, we add a set of suitable pseudo labels
by shifting the 3D bounding box along the viewing frustum. To constrain the
pseudo-3D labels to be reasonable, we carefully design two label scoring
strategies to represent their quality. In contrast to the original hard depth
labels, such soft pseudo labels with quality scores allow the network to learn
a reasonable depth range, boosting training stability and thus improving final
performance. Extensive experiments on KITTI and Waymo benchmarks show that our
method significantly improves state-of-the-art monocular 3D detectors by a
significant margin (The improvements under the moderate setting on KITTI
validation set are $\mathbf{1.82\sim 10.91\%}$ \textbf{mAP in BEV} and
$\mathbf{1.18\sim 9.36\%}$ \textbf{mAP in 3D}). Codes have been released at
\url{https://github.com/mrsempress/OBMO}.
- Abstract(参考訳): 一般的なマルチセンサーシステムと比較すると、単純な構成のため、単眼の3D物体検出が注目されている。
しかし、LiDAR法と単分子法の間にはまだ大きなギャップがある。
本稿では,単眼画像の異常な性質が奥行きの曖昧さにつながることを明らかにする。
具体的には、異なる深さの物体は、同じ境界ボックスと2D画像に類似した視覚的特徴で現れる。
残念ながら、ネットワークはそのような非識別的な視覚的特徴と正確に区別することができず、不安定な深度トレーニングをもたらす。
深度学習を容易にするため,Box \underline{O}ne \underline{B}ounding Box \underline{M}ultiple \underline{O}bjects (OBMO)を提案する。
具体的には、3D境界ボックスをファスタムに沿ってシフトすることで、適切な擬似ラベルのセットを追加する。
疑似3dラベルを合理的に制限するために、品質を表すために2つのラベルスコア戦略を慎重に設計する。
もともとのハードディープラベルとは対照的に、品質スコアを持つソフトな擬似ラベルは、ネットワークが適切なディープ範囲を学習し、トレーニングの安定性を高め、最終的なパフォーマンスを向上させることができる。
KITTI と Waymo ベンチマークの大規模な実験により、我々の手法は最先端のモノクル3D検出器をかなりのマージンで大幅に改善した(KITTI の検証セットの適度な設定による改善は、$\mathbf{1.82\sim 10.91\%}$ \textbf{mAP in BEV} と $\mathbf{1.18\sim 9.36\%}$ \textbf{mAP in 3D} である)。
コードは \url{https://github.com/mrsempress/OBMO} でリリースされた。
関連論文リスト
- Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - MonoCD: Monocular 3D Object Detection with Complementary Depths [9.186673054867866]
深度推定は単分子3次元物体検出に不可欠だが挑戦的なサブタスクである。
2つの新しい設計で深度の相補性を高めることを提案する。
KITTIベンチマーク実験により, 余分なデータを導入することなく, 最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-04-04T03:30:49Z) - Decoupled Pseudo-labeling for Semi-Supervised Monocular 3D Object Detection [108.672972439282]
SSM3ODに対するDPL(decoupled pseudo-labeling)アプローチを提案する。
提案手法は,擬似ラベルを効率的に生成するためのDPGモジュールを特徴とする。
また,擬似ラベルの雑音深度監視による最適化競合を軽減するために,DGPモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-26T05:12:18Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - DetMatch: Two Teachers are Better Than One for Joint 2D and 3D
Semi-Supervised Object Detection [29.722784254501768]
DetMatchは、2Dおよび3Dモダリティに関する共同半教師付き学習のための柔軟なフレームワークである。
両方のセンサーで検出された物体を識別することで、パイプラインはよりクリーンで堅牢な擬似ラベルを生成する。
我々はRGB画像のよりリッチなセマンティクスを活用して、誤った3Dクラスの予測を修正し、3Dボックスのローカライズを改善する。
論文 参考訳(メタデータ) (2022-03-17T17:58:00Z) - WeakM3D: Towards Weakly Supervised Monocular 3D Object Detection [29.616568669869206]
既存のモノクロ3D検出方法は、LiDAR点雲上の手動で注釈付けされた3Dボックスラベルに依存している。
本稿では,まず画像上の2Dボックスをまず検出し,次に生成された2Dボックスを用いて,対応するRoI LiDAR点を弱監視として選択する。
このネットワークは、新たに提案した3Dボックス推定値と対応するRoI LiDAR点とのアライメント損失を最小化することによって学習される。
論文 参考訳(メタデータ) (2022-03-16T00:37:08Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。