論文の概要: MVAT: Multi-View Aware Teacher for Weakly Supervised 3D Object Detection
- arxiv url: http://arxiv.org/abs/2509.07507v1
- Date: Tue, 09 Sep 2025 08:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.234696
- Title: MVAT: Multi-View Aware Teacher for Weakly Supervised 3D Object Detection
- Title(参考訳): MVAT:弱めの3Dオブジェクト検出のためのマルチビュー認識教師
- Authors: Saad Lahlali, Alexandre Fournier Montgieux, Nicolas Granger, Hervé Le Borgne, Quoc Cuong Pham,
- Abstract要約: 3Dデータに注釈をつけることは、3Dオブジェクト検出にとってコストのかかるボトルネックである。
本稿では,これらの課題に対処するために,時系列データに存在する時間的マルチビューを活用する新しいフレームワークMVATを提案する。
我々のアプローチは、時間をかけてオブジェクト中心の点雲を集約し、3Dオブジェクト表現をできるだけ密で完全なものにします。
- 参考スコア(独自算出の注目度): 42.38502124189271
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Annotating 3D data remains a costly bottleneck for 3D object detection, motivating the development of weakly supervised annotation methods that rely on more accessible 2D box annotations. However, relying solely on 2D boxes introduces projection ambiguities since a single 2D box can correspond to multiple valid 3D poses. Furthermore, partial object visibility under a single viewpoint setting makes accurate 3D box estimation difficult. We propose MVAT, a novel framework that leverages temporal multi-view present in sequential data to address these challenges. Our approach aggregates object-centric point clouds across time to build 3D object representations as dense and complete as possible. A Teacher-Student distillation paradigm is employed: The Teacher network learns from single viewpoints but targets are derived from temporally aggregated static objects. Then the Teacher generates high quality pseudo-labels that the Student learns to predict from a single viewpoint for both static and moving objects. The whole framework incorporates a multi-view 2D projection loss to enforce consistency between predicted 3D boxes and all available 2D annotations. Experiments on the nuScenes and Waymo Open datasets demonstrate that MVAT achieves state-of-the-art performance for weakly supervised 3D object detection, significantly narrowing the gap with fully supervised methods without requiring any 3D box annotations. % \footnote{Code available upon acceptance} Our code is available in our public repository (\href{https://github.com/CEA-LIST/MVAT}{code}).
- Abstract(参考訳): 3Dデータのアノテーションは、よりアクセスしやすい2Dボックスアノテーションに依存する弱い教師付きアノテーションメソッドの開発を動機とする、3Dオブジェクト検出において、コストのかかるボトルネックのままである。
しかし、2Dボックスのみに依存すると、単一の2Dボックスが複数の有効な3Dポーズに対応できるため、プロジェクションの曖昧さが生じる。
さらに、単一の視点設定下での部分的な物体視認性は、正確な3Dボックス推定を困難にする。
本稿では,これらの課題に対処するために,時系列データに存在する時間的マルチビューを活用する新しいフレームワークMVATを提案する。
我々のアプローチは、時間をかけてオブジェクト中心の点雲を集約し、3Dオブジェクト表現をできるだけ密で完全なものにします。
教師ネットワークは単一視点から学習するが、ターゲットは時間的に集約された静的オブジェクトから導出される。
そして、教師は、学生が静的な物体と動く物体の両方に対して単一の視点から予測することを学ぶ高品質な擬似ラベルを生成する。
フレームワーク全体では、予測された3Dボックスと利用可能なすべての2Dアノテーション間の一貫性を強制するために、多視点の2Dプロジェクション損失が組み込まれている。
nuScenesとWaymo Openデータセットの実験は、MVATが弱教師付き3Dオブジェクト検出の最先端のパフォーマンスを実現し、3Dボックスアノテーションを必要とせずに完全に教師付きメソッドでギャップを著しく狭めることを示した。
私たちのコードはパブリックリポジトリ(\href{https://github.com/CEA-LIST/MVAT}{code})で利用可能です。
関連論文リスト
- General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - Weakly Supervised 3D Object Detection from Point Clouds [27.70180601788613]
3Dオブジェクト検出は、特定のクラスに属するオブジェクトの3D境界ボックスを検出し、ローカライズすることを目的としている。
既存の3Dオブジェクト検出器は、トレーニング中にアノテーション付き3Dバウンディングボックスに依存している。
基礎となる真理3D境界ボックスを使わずに点雲からの3Dオブジェクト検出を弱教師付きで行うためのフレームワークであるVS3Dを提案する。
論文 参考訳(メタデータ) (2020-07-28T03:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。