論文の概要: Multi-Modal Assistance for Unsupervised Domain Adaptation on Point Cloud 3D Object Detection
- arxiv url: http://arxiv.org/abs/2511.07966v1
- Date: Wed, 12 Nov 2025 01:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.567759
- Title: Multi-Modal Assistance for Unsupervised Domain Adaptation on Point Cloud 3D Object Detection
- Title(参考訳): ポイントクラウド3次元物体検出における教師なし領域適応のためのマルチモーダル支援
- Authors: Shenao Zhao, Pengpeng Liang, Zhoufan Yang,
- Abstract要約: 本稿では,マルチモーダルアシストによる3次元UDAの性能向上を目的としたMMAssistという手法を提案する。
画像特徴とテキスト特徴をブリッジとして使用することにより、ソースドメインとターゲットドメインの3D特徴を整列するように設計されている。
実験結果から,本手法は3つの領域適応タスクにおける最先端手法と比較して有望な性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 3.3062934610311436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised domain adaptation for LiDAR-based 3D object detection (3D UDA) based on the teacher-student architecture with pseudo labels has achieved notable improvements in recent years. Although it is quite popular to collect point clouds and images simultaneously, little attention has been paid to the usefulness of image data in 3D UDA when training the models. In this paper, we propose an approach named MMAssist that improves the performance of 3D UDA with multi-modal assistance. A method is designed to align 3D features between the source domain and the target domain by using image and text features as bridges. More specifically, we project the ground truth labels or pseudo labels to the images to get a set of 2D bounding boxes. For each 2D box, we extract its image feature from a pre-trained vision backbone. A large vision-language model (LVLM) is adopted to extract the box's text description, and a pre-trained text encoder is used to obtain its text feature. During the training of the model in the source domain and the student model in the target domain, we align the 3D features of the predicted boxes with their corresponding image and text features, and the 3D features and the aligned features are fused with learned weights for the final prediction. The features between the student branch and the teacher branch in the target domain are aligned as well. To enhance the pseudo labels, we use an off-the-shelf 2D object detector to generate 2D bounding boxes from images and estimate their corresponding 3D boxes with the aid of point cloud, and these 3D boxes are combined with the pseudo labels generated by the teacher model. Experimental results show that our approach achieves promising performance compared with state-of-the-art methods in three domain adaptation tasks on three popular 3D object detection datasets. The code is available at https://github.com/liangp/MMAssist.
- Abstract(参考訳): 近年,擬似ラベルを用いた教師学生アーキテクチャに基づく3次元オブジェクト検出(3D UDA)の教師なしドメイン適応が顕著な進歩を遂げている。
点雲と画像の同時収集は極めて一般的であるが,3D UDAにおける画像データの有用性にはほとんど注意が払われていない。
本稿では,マルチモーダルアシストによる3D UDAの性能向上を目的としたMMAssistという手法を提案する。
画像特徴とテキスト特徴をブリッジとして使用することにより、ソースドメインとターゲットドメインの3D特徴を整列するように設計されている。
より具体的には、2Dバウンディングボックスのセットを取得するために、地上の真理ラベルや擬似ラベルを画像に投影する。
各2Dボックスに対して、トレーニング済みの視覚バックボーンから画像特徴を抽出する。
ボックスのテキスト記述を抽出するために大きな視覚言語モデル(LVLM)を採用し、そのテキスト特徴を得るために事前訓練されたテキストエンコーダを使用する。
対象領域におけるモデルと学生モデルのトレーニング中、予測ボックスの3次元特徴と対応する画像とテキストの特徴とを一致させ、最終的な予測のために3次元特徴と整列特徴とを融合させる。
対象領域の生徒ブランチと教師ブランチとの間の特徴も整列されている。
擬似ラベルを強化するために,市販の2Dオブジェクト検出器を用いて画像から2Dバウンディングボックスを生成し,それに対応する3Dボックスを点雲を用いて推定し,これらの3Dボックスと教師モデルで生成された擬似ラベルを組み合わせる。
実験結果から,本手法は3つの一般的な3次元オブジェクト検出データセットにおける3つの領域適応タスクにおいて,最先端の手法と比較して有望な性能を達成できることが示唆された。
コードはhttps://github.com/liangp/MMAssist.comで入手できる。
関連論文リスト
- ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labeling [9.440800948514449]
視覚言語支援擬似ラベルを用いた弱教師付き3次元シーングラフ生成法を提案する。
我々の3D-VLAPは、テキストと2D画像のセマンティクスを調整するために、現在の大規模視覚言語モデルの優れた能力を利用する。
エッジ自己アテンションに基づくグラフニューラルネットワークを設計し、3Dポイントクラウドシーンのシーングラフを生成する。
論文 参考訳(メタデータ) (2024-04-03T07:30:09Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - ST3D: Self-training for Unsupervised Domain Adaptation on 3D
ObjectDetection [78.71826145162092]
点雲からの3次元物体検出における教師なし領域適応のための新しい領域適応型自己学習パイプラインST3Dを提案する。
当社のST3Dは、評価されたすべてのデータセットで最先端のパフォーマンスを達成し、KITTI 3Dオブジェクト検出ベンチマークで完全に監視された結果を超えます。
論文 参考訳(メタデータ) (2021-03-09T10:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。