論文の概要: CA-W3D: Leveraging Context-Aware Knowledge for Weakly Supervised Monocular 3D Detection
- arxiv url: http://arxiv.org/abs/2503.04154v1
- Date: Thu, 06 Mar 2025 07:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:22.759632
- Title: CA-W3D: Leveraging Context-Aware Knowledge for Weakly Supervised Monocular 3D Detection
- Title(参考訳): CA-W3D:弱教師付きモノクロ3D検出のためのコンテキスト認識知識の活用
- Authors: Chupeng Liu, Runkai Zhao, Weidong Cai,
- Abstract要約: 本稿では,この制限を2段階の訓練パラダイムで解決するために,単眼3次元物体検出のためのコンテキスト認識弱スーパービジョン(CA-W3D)を提案する。
具体的には、まず、トレーニング可能なモノクロ3Dエンコーダと凍結したオープンボキャブラリ2D視覚接地モデルから得られた地域オブジェクトの埋め込みを整列するROCM(Regional-wise Object Contrastive Matching)を用いた事前学習ステージを導入する。
第2段階では、文脈先行を効果的に伝達するD2OD(Dual-to-One Distillation)機構を備えた擬似ラベルトレーニングプロセスを導入する。
- 参考スコア(独自算出の注目度): 5.881158575425763
- License:
- Abstract: Weakly supervised monocular 3D detection, while less annotation-intensive, often struggles to capture the global context required for reliable 3D reasoning. Conventional label-efficient methods focus on object-centric features, neglecting contextual semantic relationships that are critical in complex scenes. In this work, we propose a Context-Aware Weak Supervision for Monocular 3D object detection, namely CA-W3D, to address this limitation in a two-stage training paradigm. Specifically, we first introduce a pre-training stage employing Region-wise Object Contrastive Matching (ROCM), which aligns regional object embeddings derived from a trainable monocular 3D encoder and a frozen open-vocabulary 2D visual grounding model. This alignment encourages the monocular encoder to discriminate scene-specific attributes and acquire richer contextual knowledge. In the second stage, we incorporate a pseudo-label training process with a Dual-to-One Distillation (D2OD) mechanism, which effectively transfers contextual priors into the monocular encoder while preserving spatial fidelity and maintaining computational efficiency during inference. Extensive experiments conducted on the public KITTI benchmark demonstrate the effectiveness of our approach, surpassing the SoTA method over all metrics, highlighting the importance of contextual-aware knowledge in weakly-supervised monocular 3D detection.
- Abstract(参考訳): 弱い教師付き単分子3D検出は、アノテーションの集中度は低いが、信頼できる3D推論に必要なグローバルなコンテキストを捉えるのに苦労することが多い。
従来のラベル効率の手法は、複雑な場面で重要な文脈的意味関係を無視し、オブジェクト中心の特徴に焦点を当てている。
本研究では,この制限を2段階の訓練パラダイムで解決するために,単眼3次元物体検出のためのコンテキスト・アウェア・ピーク・スーパービジョン(CA-W3D)を提案する。
具体的には、まず、トレーニング可能なモノクロ3Dエンコーダと凍結したオープンボキャブラリ2D視覚接地モデルから得られた地域オブジェクトの埋め込みを整列するROCM(Regional-wise Object Contrastive Matching)を用いた事前学習ステージを導入する。
このアライメントにより、単分子エンコーダはシーン固有の属性を識別し、よりリッチなコンテキスト知識を取得することができる。
第2段階では,空間の忠実さを保ち,推論中に計算効率を保ちながら,コンテキスト先行をモノクロエンコーダに効果的に転送するD2OD(Dual-to-One Distillation)機構を組み込んだ擬似ラベルトレーニングプロセスを導入する。
公的なKITTIベンチマークで実施した大規模な実験は,すべての指標に対してSoTA法を超越したアプローチの有効性を示し,弱教師付きモノクロ3D検出における文脈認識知識の重要性を浮き彫りにした。
関連論文リスト
- Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [8.07701188057789]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - Scalable Vision-Based 3D Object Detection and Monocular Depth Estimation
for Autonomous Driving [5.347428263669927]
この論文は、視覚に基づく3D知覚技術の進歩への多面的な貢献である。
第1節では、この論文はモノクロとステレオの両方のオブジェクト検出アルゴリズムに構造的拡張を導入している。
第2のセグメントは、データ駆動戦略と、3D視覚検出における実世界の応用に特化している。
論文 参考訳(メタデータ) (2024-03-04T13:42:54Z) - A Review and A Robust Framework of Data-Efficient 3D Scene Parsing with
Traditional/Learned 3D Descriptors [10.497309421830671]
既存の最先端の3Dポイントクラウド理解手法は、完全に教師された方法でのみうまく機能する。
この研究は、ラベルが限定されている場合のポイントクラウド理解に取り組むための、汎用的でシンプルなフレームワークを提供する。
論文 参考訳(メタデータ) (2023-12-03T02:51:54Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - 3D Spatial Recognition without Spatially Labeled 3D [127.6254240158249]
Weakly-supervised framework for Point cloud Recognitionを紹介する。
We show that WyPR can detected and segment objects in point cloud data without access any space labels at training time。
論文 参考訳(メタデータ) (2021-05-13T17:58:07Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。