論文の概要: Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance
- arxiv url: http://arxiv.org/abs/2312.07530v1
- Date: Tue, 12 Dec 2023 18:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 14:37:46.622048
- Title: Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance
- Title(参考訳): 多層視覚誘導による弱めの3次元物体検出
- Authors: Kuan-Chih Huang, Yi-Hsuan Tsai, Ming-Hsuan Yang
- Abstract要約: 本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
- 参考スコア(独自算出の注目度): 81.68608983602581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised 3D object detection aims to learn a 3D detector with lower
annotation cost, e.g., 2D labels. Unlike prior work which still relies on few
accurate 3D annotations, we propose a framework to study how to leverage
constraints between 2D and 3D domains without requiring any 3D labels.
Specifically, we employ visual data from three perspectives to establish
connections between 2D and 3D domains. First, we design a feature-level
constraint to align LiDAR and image features based on object-aware regions.
Second, the output-level constraint is developed to enforce the overlap between
2D and projected 3D box estimations. Finally, the training-level constraint is
utilized by producing accurate and consistent 3D pseudo-labels that align with
the visual data. We conduct extensive experiments on the KITTI dataset to
validate the effectiveness of the proposed three constraints. Without using any
3D labels, our method achieves favorable performance against state-of-the-art
approaches and is competitive with the method that uses 500-frame 3D
annotations. Code and models will be made publicly available at
https://github.com/kuanchihhuang/VG-W3D.
- Abstract(参考訳): 弱教師付き3Dオブジェクト検出は、アノテーションコストの低い3D検出器を学習することを目的としている。
正確な3Dアノテーションをほとんど依存していない従来の作業とは異なり、我々は3Dラベルを必要とせずに2Dドメインと3Dドメイン間の制約をどのように活用するかを研究するフレームワークを提案する。
具体的には、3つの視点から視覚データを用いて2Dドメインと3Dドメインの接続を確立する。
まず、LiDARと画像の特徴をオブジェクト認識領域に基づいて調整する特徴レベルの制約を設計する。
次に、出力レベル制約を開発し、2dと投影された3dボックス推定の重複を強制する。
最後に、トレーニングレベルの制約を利用して、視覚データと整合した正確で一貫性のある3D擬似ラベルを生成する。
提案した3つの制約の有効性を検証するため,KITTIデータセットの広範な実験を行った。
提案手法は,500フレームの3Dアノテーションを使用する手法と競合し,最先端のアプローチに対して良好な性能を発揮する。
コードとモデルはhttps://github.com/kuanchihhuang/VG-W3D.comで公開される。
関連論文リスト
- RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision [36.15913507034939]
RenderOccは2次元ラベルのみを用いて3次元占有モデルを訓練するための新しいパラダイムである。
具体的には、マルチビュー画像からNeRFスタイルの3Dボリューム表現を抽出する。
ボリュームレンダリング技術を用いて2次元レンダリングを確立することにより,2次元セマンティクスや深度ラベルから直接の3D監視を可能にする。
論文 参考訳(メタデータ) (2023-09-18T06:08:15Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Towards 3D Object Detection with 2D Supervision [13.444432119639822]
大規模2次元ラベルを用いた視覚的3次元物体検出器の学習を可能にするハイブリッドトレーニングフレームワークを提案する。
本稿では3次元予測を時間的2次元ラベルでブリッジする時間的2次元変換を提案する。
nuScenesデータセットで実施された実験は、25%の3Dアノテーションで、強い結果(完全に教師されたパフォーマンスの90%近く)を示した。
論文 参考訳(メタデータ) (2022-11-15T16:40:11Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文 参考訳(メタデータ) (2020-01-10T08:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。