論文の概要: Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency
- arxiv url: http://arxiv.org/abs/2303.08686v1
- Date: Wed, 15 Mar 2023 15:14:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:24:13.576387
- Title: Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency
- Title(参考訳): 多視点投影と方向整合性を用いた弱教師付き単眼3次元物体検出
- Authors: Runzhou Tao, Wencheng Han, Zhongying Qiu, Cheng-zhong Xu and Jianbing
Shen
- Abstract要約: モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
- 参考スコア(独自算出の注目度): 78.76508318592552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection has become a mainstream approach in automatic
driving for its easy application. A prominent advantage is that it does not
need LiDAR point clouds during the inference. However, most current methods
still rely on 3D point cloud data for labeling the ground truths used in the
training phase. This inconsistency between the training and inference makes it
hard to utilize the large-scale feedback data and increases the data collection
expenses. To bridge this gap, we propose a new weakly supervised monocular 3D
objection detection method, which can train the model with only 2D labels
marked on images. To be specific, we explore three types of consistency in this
task, i.e. the projection, multi-view and direction consistency, and design a
weakly-supervised architecture based on these consistencies. Moreover, we
propose a new 2D direction labeling method in this task to guide the model for
accurate rotation direction prediction. Experiments show that our
weakly-supervised method achieves comparable performance with some fully
supervised methods. When used as a pre-training method, our model can
significantly outperform the corresponding fully-supervised baseline with only
1/3 3D labels. https://github.com/weakmono3d/weakmono3d
- Abstract(参考訳): モノキュラーな3dオブジェクト検出は、その簡単な応用のために自動運転の主流となっている。
顕著な利点は、推論中にLiDARポイントクラウドを必要としないことである。
しかし、現在のほとんどの方法は、トレーニングフェーズで使用される基底真理のラベル付けに3dポイントクラウドデータに依存している。
このトレーニングと推論の不整合により、大規模なフィードバックデータの利用が難しくなり、データ収集費用が増加する。
このギャップを埋めるために,画像に2dラベルのみを付けてモデルを訓練できる,新しい弱教師付き単眼3次元異物検出法を提案する。
具体的には、このタスクにおける3種類の一貫性、すなわち投影、多視点および方向の一貫性を探求し、これらの構成に基づいて弱い教師付きアーキテクチャを設計する。
さらに,本課題では,正確な回転方向予測のためのモデルガイドとして,新しい2次元方向ラベル法を提案する。
実験により, 弱教師付き手法は, 完全教師付き手法と同等の性能が得られることを示した。
事前学習法として使用する場合,本モデルは1/33次元ラベルで対応する完全教師付きベースラインを大幅に上回ることができる。
https://github.com/weakmono3d/weakmono3d
関連論文リスト
- An Empirical Study of Pseudo-Labeling for Image-based 3D Object
Detection [72.30883544352918]
異なる条件下で,擬似ラベルがベースラインモデルに対して効果的に監視できるかどうかを検討する。
ベルとホイッスルを使わずにKITTI-3Dテストセットの適度なレベルを20.23 APで達成し、ベースラインモデルを6.03 APで改善した。
この研究が、半教師付き環境下で画像に基づく3D検出コミュニティに洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2022-08-15T12:17:46Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - MonoDistill: Learning Spatial Features for Monocular 3D Object Detection [80.74622486604886]
本稿では,LiDAR信号からの空間情報を単分子3D検出器に導入するための簡易かつ効果的な手法を提案する。
得られたデータを用いて、ベースラインモデルと同じアーキテクチャで3D検出器をトレーニングする。
実験の結果,提案手法はベースラインモデルの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-01-26T09:21:41Z) - Is Pseudo-Lidar needed for Monocular 3D Object detection? [32.772699246216774]
我々は,擬似ライダー法のような深度事前学習の恩恵を受けることができるエンド・ツー・エンドの単分子3次元物体検出器DD3Dを提案する。
我々のアーキテクチャは、深度推定と3次元検出の効果的な情報伝達のために設計されており、ラベルなし事前学習データの量でスケールすることができる。
論文 参考訳(メタデータ) (2021-08-13T22:22:51Z) - Anchor-free 3D Single Stage Detector with Mask-Guided Attention for
Point Cloud [79.39041453836793]
我々は、点雲をアンカーフリーで検出する新しい1段3次元検出器を開発した。
ボクセルをベースとしたスパース3D特徴量からスパース2D特徴量マップに変換することでこれを克服する。
検出信頼度スコアとバウンディングボックス回帰の精度との相関性を改善するために,IoUに基づく検出信頼度再校正手法を提案する。
論文 参考訳(メタデータ) (2021-08-08T13:42:13Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Move to See Better: Self-Improving Embodied Object Detection [35.461141354989714]
本研究では,テスト環境における物体検出の改善手法を提案する。
エージェントは、多視点データを収集し、2Dおよび3D擬似ラベルを生成し、その検出器を自己監督的に微調整する。
論文 参考訳(メタデータ) (2020-11-30T19:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。