論文の概要: TeDA: Boosting Vision-Lanuage Models for Zero-Shot 3D Object Retrieval via Testing-time Distribution Alignment
- arxiv url: http://arxiv.org/abs/2505.02325v1
- Date: Mon, 05 May 2025 02:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.547885
- Title: TeDA: Boosting Vision-Lanuage Models for Zero-Shot 3D Object Retrieval via Testing-time Distribution Alignment
- Title(参考訳): TeDA: テスト時間分布アライメントによるゼロショット3次元物体検索のための視覚遅延モデルの構築
- Authors: Zhichuan Wang, Yang Zhou, Jinhai Xiang, Yulong Wang, Xinwei He,
- Abstract要約: テスト時間分布アライメント(TeDA)は、テスト時に未知の3次元オブジェクトの検索に事前訓練された2次元視覚言語モデルCLIPを適用する新しいフレームワークである。
TeDAは3Dオブジェクトをマルチビューイメージに投影し、CLIPを使って機能を抽出し、3Dクエリの埋め込みを洗練する。
4つのオープンセットの3Dオブジェクト検索ベンチマークの実験により、TeDAは最先端の手法を大幅に上回ることを示した。
- 参考スコア(独自算出の注目度): 14.535056813802527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning discriminative 3D representations that generalize well to unknown testing categories is an emerging requirement for many real-world 3D applications. Existing well-established methods often struggle to attain this goal due to insufficient 3D training data from broader concepts. Meanwhile, pre-trained large vision-language models (e.g., CLIP) have shown remarkable zero-shot generalization capabilities. Yet, they are limited in extracting suitable 3D representations due to substantial gaps between their 2D training and 3D testing distributions. To address these challenges, we propose Testing-time Distribution Alignment (TeDA), a novel framework that adapts a pretrained 2D vision-language model CLIP for unknown 3D object retrieval at test time. To our knowledge, it is the first work that studies the test-time adaptation of a vision-language model for 3D feature learning. TeDA projects 3D objects into multi-view images, extracts features using CLIP, and refines 3D query embeddings with an iterative optimization strategy by confident query-target sample pairs in a self-boosting manner. Additionally, TeDA integrates textual descriptions generated by a multimodal language model (InternVL) to enhance 3D object understanding, leveraging CLIP's aligned feature space to fuse visual and textual cues. Extensive experiments on four open-set 3D object retrieval benchmarks demonstrate that TeDA greatly outperforms state-of-the-art methods, even those requiring extensive training. We also experimented with depth maps on Objaverse-LVIS, further validating its effectiveness. Code is available at https://github.com/wangzhichuan123/TeDA.
- Abstract(参考訳): 未知のテストカテゴリによく当てはまる差別的な3D表現を学習することは、多くの現実世界の3Dアプリケーションにとって新たな要件である。
既存の確立された手法は、より広い概念からの3Dトレーニングデータが不足しているため、この目標を達成するのに苦労することが多い。
一方、事前訓練された大きな視覚言語モデル(例えば、CLIP)は、目覚ましいゼロショットの一般化機能を示している。
しかし、2Dトレーニングと3Dテストの分布の間にかなりのギャップがあるため、適切な3D表現を抽出することに制限がある。
これらの課題に対処するために,テスト時間分布アライメント(TeDA)を提案する。このフレームワークは,未知の3次元オブジェクトの検索に事前訓練された2次元視覚言語モデルCLIPを適応させる。
我々の知る限り、3D特徴学習のための視覚言語モデルの試験時間適応を研究する最初の研究である。
TeDAは3Dオブジェクトをマルチビューイメージに投影し、CLIPを使って特徴を抽出し、3Dクエリの埋め込みを反復最適化戦略で改善する。
さらに、TeDAはマルチモーダル言語モデル(InternVL)によって生成されたテキスト記述を統合し、3Dオブジェクトの理解を強化する。
4つのオープンセットの3Dオブジェクト検索ベンチマークによる大規模な実験により、TeDAは、広範囲なトレーニングを必要とする人でさえ、最先端の手法を大幅に上回っていることが示された。
また,Objaverse-LVISの深度マップを実験し,その有効性を検証した。
コードはhttps://github.com/wangzhichuan123/TeDAで公開されている。
関連論文リスト
- ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。