論文の概要: DesCLIP: Robust Continual Learning via General Attribute Descriptions for VLM-Based Visual Recognition
- arxiv url: http://arxiv.org/abs/2502.00618v2
- Date: Tue, 02 Sep 2025 05:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.133998
- Title: DesCLIP: Robust Continual Learning via General Attribute Descriptions for VLM-Based Visual Recognition
- Title(参考訳): DesCLIP: VLMに基づく視覚認識のための一般属性記述によるロバスト連続学習
- Authors: Chiyuan He, Zihuan Qiu, Fanman Meng, Linfeng Xu, Qingbo Wu, Hongliang Li,
- Abstract要約: 視覚言語モデル(VLM)の継続的な学習は、下流のタスクやデータセットの拡張に漸進的に適応するために、モーダルな事前訓練された知識を活用することに焦点を当てている。
既存の研究はしばしば、一般的な知識と専門知識の潜伏した関係を見越して、下流のタスクで特定のクラステキストと視覚的特徴を結びつけることに焦点を当てている。
汎用属性(GA)記述を利用して,特定のクラスオブジェクトの理解を導くDesCLIPを提案する。
- 参考スコア(独自算出の注目度): 27.429425225892675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning of vision-language models (VLMs) focuses on leveraging cross-modal pretrained knowledge to incrementally adapt to expanding downstream tasks and datasets, while tackling the challenge of knowledge forgetting. Existing research often focuses on connecting visual features with specific class text in downstream tasks, overlooking the latent relationships between general and specialized knowledge. Our findings reveal that forcing models to optimize inappropriate visual-text matches exacerbates forgetting of VLM's recognition ability. To tackle this issue, we propose DesCLIP, which leverages general attribute (GA) descriptions to guide the understanding of specific class objects, enabling VLMs to establish robust vision-GA-class trilateral associations rather than relying solely on vision-class connections. Specifically, we introduce a language assistant to generate concrete GA description candidates via proper request prompts. Then, an anchor-based embedding filter is designed to obtain highly relevant GA description embeddings, which are leveraged as the paired text embeddings for visual-textual instance matching, thereby tuning the visual encoder. Correspondingly, the class text embeddings are gradually calibrated to align with these shared GA description embeddings. Extensive experiments demonstrate the advancements and efficacy of our proposed method, with comprehensive empirical evaluations highlighting its superior performance in VLM-based recognition compared to existing continual learning methods.
- Abstract(参考訳): 視覚言語モデル(VLM)の継続的な学習は、クロスモーダルな事前訓練された知識を活用して、下流のタスクやデータセットの拡張に漸進的に適応し、知識を忘れることの課題に対処することに焦点を当てている。
既存の研究はしばしば、一般的な知識と専門知識の潜伏した関係を見越して、下流のタスクで特定のクラステキストと視覚的特徴を結びつけることに焦点を当てている。
以上の結果から,不適切な視覚テキストマッチングを強制するモデルでは,VLMの認識能力を忘れることがより多くなることが明らかとなった。
この問題に対処するため,我々は,汎用属性(GA)記述を活用して,特定のクラスオブジェクトの理解を促すDesCLIPを提案する。
具体的には,具体的なGA記述候補を適切な要求プロンプトで生成する言語アシスタントを提案する。
次に、アンカーベースの埋め込みフィルタを設計し、視覚的テキストインスタンスマッチングのためのペアテキスト埋め込みとして活用し、視覚的エンコーダのチューニングを行う。
それに対応して、クラステキストの埋め込みは、これらの共有GA記述の埋め込みと整合するように徐々に調整される。
提案手法の進歩と有効性の実証実験を行い,既存の連続学習法と比較して,VLMに基づく認識において優れた性能を示す包括的実証評価を行った。
関連論文リスト
- Harnessing Textual Semantic Priors for Knowledge Transfer and Refinement in CLIP-Driven Continual Learning [19.210280671911278]
継続的な学習は、過去の知識を忘れずにタスクの流れから学習する能力をモデルに装備することを目的としている。
本稿では,テキスト先行のアンチフォッゲッティングと構造化の性質を利用した統合フレームワークを提案し,セマンティック・アウェア・ナレッジ・トランスファーを導く。
論文 参考訳(メタデータ) (2025-08-03T04:09:00Z) - SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection [11.497620257835964]
我々は、余分な監督なしに訓練されたCCKT-Detを提案する。
提案フレームワークは,視覚言語モデル(VLM)から抽出した言語クエリと視覚領域の特徴から,循環的かつ動的に知識を伝達する。
CCKT-Detは、VLMの規模が大きくなるにつれて常に性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-14T02:04:28Z) - Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP [24.22470408549266]
Aggregate-and-Adapted Prompt Embedding (AAPE) としての即時埋め込み
AAPEは、視覚言語理解タスクを含む、さまざまな下流データ分散とタスクに一般化できることが示されている。
また、AAPEは非標準およびOOD例の処理に特に有用であることを示す。
論文 参考訳(メタデータ) (2024-10-31T07:41:13Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。