論文の概要: GA2-CLIP: Generic Attribute Anchor for Efficient Prompt Tuningin Video-Language Models
- arxiv url: http://arxiv.org/abs/2511.22125v1
- Date: Thu, 27 Nov 2025 05:36:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.410307
- Title: GA2-CLIP: Generic Attribute Anchor for Efficient Prompt Tuningin Video-Language Models
- Title(参考訳): GA2-CLIP:ジェネリック属性アンカー
- Authors: Bin Wang, Ruotong Hu, Wenqian Wang, Wentong Li, Mingliang Gao, Runmin Cong, Wei Zhang,
- Abstract要約: 視覚的およびテキスト的ソフトプロンプトチューニングは、下流タスクにおける視覚言語モデル(VLM)の適応性を向上させることができる。
既存の手法では、手作りプロンプトとソフトプロンプトのギャップを規則化することで、この効果を緩和しようとする。
本稿では,ビデオタスクにおけるV-Lモデルの性能を最適化するプラグイン・アンド・プレイ・カップリング・プロンプト学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.002791706686345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual and textual soft prompt tuning can effectively improve the adaptability of Vision-Language Models (VLMs) in downstream tasks. However, fine-tuning on video tasks impairs the model's generalization ability to unseen classes. Existing methods attempt to mitigate this forgetting effect by regularizing the gap between hand-crafted prompts and soft prompts, but this also weakens the learning ability of soft prompts. To address this challenge, we propose a plug-and-play coupling prompt learning framework to optimize the generalization performance of V-L models in video tasks, with the core motivation of mitigating semantic space narrowing during fine-tuning by introducing an externally supervised prompt. Specifically, for textual prompts, we introduce pre-trained prompts from other datasets as hard prompt tokens. These are concatenated with soft prompt tokens and coupled via a learnable mapping layer. This competitive prompting approach prevents the semantic space from overfitting to supervised categories. In addition, we introduce a set of well-designed irrelevant video sets and negative prompts as generic attribute anchors to maintain the generic relevance of the attributes in the pre-trained semantic space, thus preserving the generalization ability. Experiments on video tasks demonstrate that our method significantly outperforms state-of-the-art prompt tuning approaches across generalization benchmarks, particularly on base-to-new class prediction.
- Abstract(参考訳): 視覚的およびテキスト的ソフトプロンプトチューニングは、下流タスクにおける視覚言語モデル(VLM)の適応性を効果的に改善することができる。
しかし、ビデオタスクの微調整は、クラスを見落とせないモデルの一般化能力を損なう。
既存の方法は、手作りのプロンプトとソフトプロンプトのギャップを規則化することで、この忘れる効果を緩和しようとするが、ソフトプロンプトの学習能力を弱める。
この課題に対処するために,ビデオタスクにおけるV-Lモデルの一般化性能を最適化するプラグイン・アンド・プレイ・カップリング・プロンプト学習フレームワークを提案する。
具体的には、テキストプロンプトに対して、ハードプロンプトトークンとして、他のデータセットから事前訓練されたプロンプトを導入する。
これらはソフトプロンプトトークンと結合され、学習可能なマッピング層を介して結合される。
この競合的なプロンプトアプローチは、意味空間がオーバーフィットから教師付き圏に収まらないようにする。
さらに、事前学習されたセマンティック空間における属性の一般的な関連性を維持するために、よく設計された無関係なビデオセットと負のプロンプトをジェネリック属性アンカーとして導入し、一般化能力を維持する。
ビデオタスクの実験により,本手法は一般化ベンチマーク,特にベース・ツー・ニューなクラス予測において,最先端のプロンプト・チューニング・アプローチを著しく上回っていることが示された。
関連論文リスト
- SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。
提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。
11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文 参考訳(メタデータ) (2024-05-13T16:52:17Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Prompting classes: Exploring the Power of Prompt Class Learning in
Weakly Supervised Semantic Segmentation [15.467510304266883]
本稿では,プロンプトチューニングが弱教師付きセマンティックセグメンテーションに与える影響について検討する。
PrOmpt cLass lEarning(POLE)戦略に基づく新しいアプローチを提案する。
我々は、よく知られたWSSSベンチマークにおいて、シンプルで効率的なアプローチがSOTA性能を達成することを実証する。
論文 参考訳(メタデータ) (2023-06-30T19:25:18Z) - Visual-Language Prompt Tuning with Knowledge-guided Context Optimization [96.27531485377871]
代表的CoOpベースの作業は、学習可能なテキストトークンとクラストークンを組み合わせて、特定のテキスト知識を得る。
我々は,未知のクラスに対する学習可能なプロンプトの一般化能力を高めるために,新しい知識誘導コンテキスト最適化(KgCoOp)を導入する。
論文 参考訳(メタデータ) (2023-03-23T14:04:23Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。