論文の概要: Towards 3D Object Detection with 2D Supervision
- arxiv url: http://arxiv.org/abs/2211.08287v1
- Date: Tue, 15 Nov 2022 16:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 15:09:26.949882
- Title: Towards 3D Object Detection with 2D Supervision
- Title(参考訳): 2次元監視による3次元物体検出に向けて
- Authors: Jinrong Yang, Tiancai Wang, Zheng Ge, Weixin Mao, Xiaoping Li, Xiangyu
Zhang
- Abstract要約: 大規模2次元ラベルを用いた視覚的3次元物体検出器の学習を可能にするハイブリッドトレーニングフレームワークを提案する。
本稿では3次元予測を時間的2次元ラベルでブリッジする時間的2次元変換を提案する。
nuScenesデータセットで実施された実験は、25%の3Dアノテーションで、強い結果(完全に教師されたパフォーマンスの90%近く)を示した。
- 参考スコア(独自算出の注目度): 13.444432119639822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The great progress of 3D object detectors relies on large-scale data and 3D
annotations. The annotation cost for 3D bounding boxes is extremely expensive
while the 2D ones are easier and cheaper to collect. In this paper, we
introduce a hybrid training framework, enabling us to learn a visual 3D object
detector with massive 2D (pseudo) labels, even without 3D annotations. To break
through the information bottleneck of 2D clues, we explore a new perspective:
Temporal 2D Supervision. We propose a temporal 2D transformation to bridge the
3D predictions with temporal 2D labels. Two steps, including homography wraping
and 2D box deduction, are taken to transform the 3D predictions into 2D ones
for supervision. Experiments conducted on the nuScenes dataset show strong
results (nearly 90% of its fully-supervised performance) with only 25% 3D
annotations. We hope our findings can provide new insights for using a large
number of 2D annotations for 3D perception.
- Abstract(参考訳): 3Dオブジェクト検出器の大きな進歩は、大規模データと3Dアノテーションに依存している。
3Dバウンディングボックスのアノテーションコストは非常に高く、2Dバウンディングボックスはより簡単かつ安価に収集できる。
本稿では,3Dアノテーションを使わずに,大量の2Dラベルを持つ視覚的3Dオブジェクト検出器を学習可能なハイブリッドトレーニングフレームワークを提案する。
2Dヒントの情報ボトルネックを突破するために、新しい視点を探る: テンポラル2Dスーパービジョン。
本稿では3次元予測を時間的2次元ラベルでブリッジする時間的2次元変換を提案する。
ホモグラフィラッピングと2Dボックス推論を含む2つのステップを用いて、3Dの予測を2Dの予測に変換する。
nuScenesデータセットで実施された実験は、25%の3Dアノテーションで、強い結果(完全に教師されたパフォーマンスの90%近く)を示した。
3d認識に大量の2dアノテーションを使用するための新たな洞察が得られればと思っています。
関連論文リスト
- V-MIND: Building Versatile Monocular Indoor 3D Detector with Diverse 2D Annotations [17.49394091283978]
V-MIND(Versatile Monocular Indoor Detector)は,室内3D検出器の性能を向上させる。
大規模2次元画像を3次元点雲に変換し,その後に擬似3次元境界ボックスを導出することにより,3次元学習データを生成する。
V-MINDはOmni3D屋内データセット上の幅広いクラスにわたる最先端のオブジェクト検出性能を実現する。
論文 参考訳(メタデータ) (2024-12-16T03:28:00Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Roadside Monocular 3D Detection via 2D Detection Prompting [11.511202614683388]
本稿では,2次元検出を用いて3次元検出器を誘導する手法を提案する。
提案手法は,3次元検出器と比較して2次元検出器の訓練がはるかに容易であり,2次元画像平面上でのWr.t検出の精度が著しく向上する,という重要な知見に基づいている。
論文 参考訳(メタデータ) (2024-04-01T11:57:34Z) - Improving Distant 3D Object Detection Using 2D Box Supervision [97.80225758259147]
遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。
我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
論文 参考訳(メタデータ) (2024-03-14T09:54:31Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Learning from 2D: Pixel-to-Point Knowledge Transfer for 3D Pretraining [21.878815180924832]
豊富な2Dデータセットから学んだ2Dネットワークを活用した新しい3Dプリトレーニング手法を提案する。
実験により,2次元知識を事前学習した3次元モデルにより,実世界の様々な3次元ダウンストリームタスクのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-04-10T05:40:42Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。