論文の概要: DesCLIP: Robust Continual Adaptation via General Attribute Descriptions for Pretrained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.00618v1
- Date: Sun, 02 Feb 2025 01:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:31.932460
- Title: DesCLIP: Robust Continual Adaptation via General Attribute Descriptions for Pretrained Vision-Language Models
- Title(参考訳): DesCLIP:事前学習した視覚言語モデルに対する一般属性記述によるロバスト連続適応
- Authors: Chiyuan He, Zihuan Qiu, Fanman Meng, Linfeng Xu, Qingbo Wu, Hongliang Li,
- Abstract要約: 視覚言語モデル(VLM)の継続的な適応は、下流タスクやデータセットの拡張に漸進的に適応するために、モーダルな事前訓練された知識を活用することに焦点を当てている。
既存の研究はしばしば、一般的な知識と専門知識の潜伏した関係を見越して、下流のタスクで特定のクラステキストと視覚的特徴を結びつけることに焦点を当てている。
汎用属性(GA)記述を利用して,特定のクラスオブジェクトの理解を導くDesCLIPを提案する。
- 参考スコア(独自算出の注目度): 13.917530818500481
- License:
- Abstract: Continual adaptation of vision-language models (VLMs) focuses on leveraging cross-modal pretrained knowledge to incrementally adapt for expanding downstream tasks and datasets, while tackling the challenge of knowledge forgetting. Existing research often focuses on connecting visual features with specific class text in downstream tasks, overlooking the latent relationships between general and specialized knowledge. Our findings reveal that forcing models to optimize inappropriate visual-text matches exacerbates forgetting of VLMs. To tackle this issue, we propose DesCLIP, which leverages general attribute (GA) descriptions to guide the understanding of specific class objects, enabling VLMs to establish robust \textit{vision-GA-class} trilateral associations rather than relying solely on \textit{vision-class} connections. Specifically, we introduce a language assistant to generate concrete GA description candidates via proper request prompts. Then, an anchor-based embedding filter is designed to obtain highly relevant GA description embeddings, which are leveraged as the paired text embeddings for visual-textual instance matching, thereby tuning the visual encoder. Correspondingly, the class text embeddings are gradually calibrated to align with these shared GA description embeddings. Extensive experiments demonstrate the advancements and efficacy of our proposed method, with comprehensive empirical evaluations highlighting its superior performance compared to existing pretrained and VLM-based continual learning methods.
- Abstract(参考訳): 視覚言語モデル(VLM)の継続的な適応は、モデム間の事前訓練された知識を活用して、下流のタスクやデータセットの拡張に漸進的に適応し、知識を忘れることの難しさに対処することに焦点を当てている。
既存の研究はしばしば、一般的な知識と専門知識の潜伏した関係を見越して、下流のタスクで特定のクラステキストと視覚的特徴を結びつけることに焦点を当てている。
以上の結果から,不適切な視覚テキストマッチングの最適化を強制するモデルでは,VLMの忘れがより多くなることが明らかとなった。
この問題に対処するために、DesCLIPを提案する。これは、一般的な属性(GA)記述を利用して、特定のクラスオブジェクトの理解をガイドし、VLMが、単に \textit{vision-class}接続に依存するのではなく、堅牢な \textit{vision-GA-class}三元関係を確立することを可能にする。
具体的には,具体的なGA記述候補を適切な要求プロンプトで生成する言語アシスタントを提案する。
次に、アンカーベースの埋め込みフィルタを設計し、視覚テキストインスタンスマッチングのためのペアテキスト埋め込みとして活用し、視覚エンコーダのチューニングを行う。
それに対応して、クラステキストの埋め込みは、これらの共有GA記述の埋め込みと整合するように徐々に調整される。
提案手法の進歩と有効性を実証し,既存の事前学習法やVLMに基づく連続学習法と比較して優れた性能を示す総合的な実験的評価を行った。
関連論文リスト
- Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP [24.22470408549266]
Aggregate-and-Adapted Prompt Embedding (AAPE) としての即時埋め込み
AAPEは、視覚言語理解タスクを含む、さまざまな下流データ分散とタスクに一般化できることが示されている。
また、AAPEは非標準およびOOD例の処理に特に有用であることを示す。
論文 参考訳(メタデータ) (2024-10-31T07:41:13Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。