論文の概要: Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval
- arxiv url: http://arxiv.org/abs/2507.21489v1
- Date: Tue, 29 Jul 2025 04:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.656381
- Title: Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval
- Title(参考訳): Describe, Adapt and Combine: Open-set 3D Object RetrievalのためのCLIPエンコーダの強化
- Authors: Zhichuan Wang, Yang Zhou, Zhe Liu, Rui Yu, Song Bai, Yulong Wang, Xinwei He, Xiang Bai,
- Abstract要約: オープンセット3Dオブジェクト検索は、トレーニングセットを超えて、目に見えないカテゴリの3Dオブジェクトを検索することを目的とした、新たなタスクである。
既存の手法は通常、すべてのモダリティ(ボクセル、点雲、マルチビュー画像など)を使用し、融合前に特定のバックボーンを訓練する。
Describe, Adapt and Combine (DAC) というフレームワークを提案する。
- 参考スコア(独自算出の注目度): 76.86914849263168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-set 3D object retrieval (3DOR) is an emerging task aiming to retrieve 3D objects of unseen categories beyond the training set. Existing methods typically utilize all modalities (i.e., voxels, point clouds, multi-view images) and train specific backbones before fusion. However, they still struggle to produce generalized representations due to insufficient 3D training data. Being contrastively pre-trained on web-scale image-text pairs, CLIP inherently produces generalized representations for a wide range of downstream tasks. Building upon it, we present a simple yet effective framework named Describe, Adapt and Combine (DAC) by taking only multi-view images for open-set 3DOR. DAC innovatively synergizes a CLIP model with a multi-modal large language model (MLLM) to learn generalized 3D representations, where the MLLM is used for dual purposes. First, it describes the seen category information to align with CLIP's training objective for adaptation during training. Second, it provides external hints about unknown objects complementary to visual cues during inference. To improve the synergy, we introduce an Additive-Bias Low-Rank adaptation (AB-LoRA), which alleviates overfitting and further enhances the generalization to unseen categories. With only multi-view images, DAC significantly surpasses prior arts by an average of +10.01\% mAP on four open-set 3DOR datasets. Moreover, its generalization is also validated on image-based and cross-dataset setups. Code is available at https://github.com/wangzhichuan123/DAC.
- Abstract(参考訳): オープンセット3Dオブジェクト検索(3DOR)は,未確認カテゴリの3Dオブジェクトをトレーニングセットを超えて検索することを目的とした,新たな課題である。
既存の手法は通常、すべてのモダリティ(ボクセル、点雲、マルチビュー画像など)を使用し、融合前に特定のバックボーンを訓練する。
しかし、3Dトレーニングデータが不十分なため、汎用表現の作成に苦慮している。
対照的に、Webスケールのイメージテキストペアで事前トレーニングされているCLIPは、本質的に、幅広いダウンストリームタスクに対して一般化された表現を生成する。
そこで我々は,DAC (Describe, Adapt and Combine) というシンプルなフレームワークを提案する。
DACは、Multi-modal large language model (MLLM)でCLIPモデルを革新的にシナジー化し、一般化された3D表現を学習する。
まず、学習中の適応のためのCLIPのトレーニング目標と整合するカテゴリ情報を記述する。
第二に、推論中に視覚的な手がかりと相補的な未知のオブジェクトに関する外部ヒントを提供する。
相乗効果を改善するために、過剰適合を緩和し、未確認カテゴリへの一般化をさらに促進するAdditive-Bias Low-Rank adaptation (AB-LoRA)を導入する。
マルチビュー画像のみを用いて、DACは4つのオープンセットの3DORデータセットにおいて、平均+10.01\% mAPで先行芸術をはるかに上回っている。
さらに、その一般化は画像ベースおよびデータセット間の設定でも検証される。
コードはhttps://github.com/wangzhichuan123/DACで公開されている。
関連論文リスト
- TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。
TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文 参考訳(メタデータ) (2024-02-28T17:18:38Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。