Fugu-MT 論文翻訳(概要): Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval

論文の概要: Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval

arxiv url: http://arxiv.org/abs/2507.21489v1
Date: Tue, 29 Jul 2025 04:11:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 17:08:55.656381
Title: Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval
Title（参考訳）: Describe, Adapt and Combine: Open-set 3D Object RetrievalのためのCLIPエンコーダの強化
Authors: Zhichuan Wang, Yang Zhou, Zhe Liu, Rui Yu, Song Bai, Yulong Wang, Xinwei He, Xiang Bai,
Abstract要約: オープンセット3Dオブジェクト検索は、トレーニングセットを超えて、目に見えないカテゴリの3Dオブジェクトを検索することを目的とした、新たなタスクである。既存の手法は通常、すべてのモダリティ(ボクセル、点雲、マルチビュー画像など)を使用し、融合前に特定のバックボーンを訓練する。 Describe, Adapt and Combine (DAC) というフレームワークを提案する。
参考スコア（独自算出の注目度）: 76.86914849263168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open-set 3D object retrieval (3DOR) is an emerging task aiming to retrieve 3D objects of unseen categories beyond the training set. Existing methods typically utilize all modalities (i.e., voxels, point clouds, multi-view images) and train specific backbones before fusion. However, they still struggle to produce generalized representations due to insufficient 3D training data. Being contrastively pre-trained on web-scale image-text pairs, CLIP inherently produces generalized representations for a wide range of downstream tasks. Building upon it, we present a simple yet effective framework named Describe, Adapt and Combine (DAC) by taking only multi-view images for open-set 3DOR. DAC innovatively synergizes a CLIP model with a multi-modal large language model (MLLM) to learn generalized 3D representations, where the MLLM is used for dual purposes. First, it describes the seen category information to align with CLIP's training objective for adaptation during training. Second, it provides external hints about unknown objects complementary to visual cues during inference. To improve the synergy, we introduce an Additive-Bias Low-Rank adaptation (AB-LoRA), which alleviates overfitting and further enhances the generalization to unseen categories. With only multi-view images, DAC significantly surpasses prior arts by an average of +10.01\% mAP on four open-set 3DOR datasets. Moreover, its generalization is also validated on image-based and cross-dataset setups. Code is available at https://github.com/wangzhichuan123/DAC.
Abstract（参考訳）: オープンセット3Dオブジェクト検索(3DOR)は,未確認カテゴリの3Dオブジェクトをトレーニングセットを超えて検索することを目的とした,新たな課題である。既存の手法は通常、すべてのモダリティ(ボクセル、点雲、マルチビュー画像など)を使用し、融合前に特定のバックボーンを訓練する。しかし、3Dトレーニングデータが不十分なため、汎用表現の作成に苦慮している。対照的に、Webスケールのイメージテキストペアで事前トレーニングされているCLIPは、本質的に、幅広いダウンストリームタスクに対して一般化された表現を生成する。そこで我々は,DAC (Describe, Adapt and Combine) というシンプルなフレームワークを提案する。 DACは、Multi-modal large language model (MLLM)でCLIPモデルを革新的にシナジー化し、一般化された3D表現を学習する。まず、学習中の適応のためのCLIPのトレーニング目標と整合するカテゴリ情報を記述する。第二に、推論中に視覚的な手がかりと相補的な未知のオブジェクトに関する外部ヒントを提供する。相乗効果を改善するために、過剰適合を緩和し、未確認カテゴリへの一般化をさらに促進するAdditive-Bias Low-Rank adaptation (AB-LoRA)を導入する。マルチビュー画像のみを用いて、DACは4つのオープンセットの3DORデータセットにおいて、平均+10.01\% mAPで先行芸術をはるかに上回っている。さらに、その一般化は画像ベースおよびデータセット間の設定でも検証される。コードはhttps://github.com/wangzhichuan123/DACで公開されている。

関連論文リスト

CLIP3D-AD: Extending CLIP for 3D Few-Shot Anomaly Detection with Multi-View Images Generation [22.850815902535988]
CLIP上に拡張された効率的な3D-FSAD法であるCLIP3D-ADを提案する。正常画像上の異常画像をサンプルペアとして合成し,CLIPを3次元の異常分類とセグメンテーションに適応させる。本手法は,MVTec-3D ADデータセット上での3次元ショット異常分類とセグメンテーションの競合性能を有する。
論文参考訳（メタデータ） (2024-06-27T07:13:09Z)
Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文参考訳（メタデータ） (2024-04-15T21:30:50Z)
TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。 TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文参考訳（メタデータ） (2024-02-28T17:18:38Z)
CLIPose: Category-Level Object Pose Estimation with Pre-trained Vision-Language Knowledge [18.57081150228812]
本稿では、事前学習された視覚言語モデルを用いて、オブジェクトカテゴリ情報の学習を改善する新しい6Dポーズフレームワークを提案する。 CLIPoseは、2つの主要なベンチマークデータセットであるREAL275とCAMERA25で最先端のパフォーマンスを達成し、推論中(40FPS)にリアルタイムに実行される。
論文参考訳（メタデータ） (2024-02-24T05:31:53Z)
GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。 GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文参考訳（メタデータ） (2024-02-09T05:46:47Z)
Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文参考訳（メタデータ） (2023-08-06T01:11:40Z)
Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文参考訳（メタデータ） (2023-01-19T18:59:52Z)
ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文参考訳（メタデータ） (2022-12-10T01:34:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。