論文の概要: Consistency-guided Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2306.01195v2
- Date: Sun, 18 Feb 2024 03:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 06:48:04.954831
- Title: Consistency-guided Prompt Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための一貫性誘導型プロンプト学習
- Authors: Shuvendu Roy, Ali Etemad
- Abstract要約: CoPromptは視覚言語モデルのための新しい微調整手法である。
トレーニング可能なモデルと事前訓練されたモデルの予測に一貫性の制約を課す。
入力空間と出力空間の両方でチューニングの柔軟性が向上する。
- 参考スコア(独自算出の注目度): 27.75143621836449
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose Consistency-guided Prompt learning (CoPrompt), a new fine-tuning
method for vision-language models. Our approach improves the generalization of
large foundation models when fine-tuned on downstream tasks in a few-shot
setting. The basic idea of CoPrompt is to enforce a consistency constraint in
the prediction of the trainable and pre-trained models to prevent overfitting
on the downstream task. Additionally, we introduce the following two components
into our consistency constraint to further boost the performance: enforcing
consistency on two perturbed inputs and combining two dominant paradigms of
tuning, prompting and adapter. Enforcing consistency on perturbed input serves
to further regularize the consistency constraint, thereby improving
generalization. Moreover, the integration of adapters and prompts not only
enhances performance on downstream tasks but also offers increased tuning
flexibility in both input and output spaces. This facilitates more effective
adaptation to downstream tasks in a few-shot learning setting. Experiments show
that CoPrompt outperforms existing methods on a range of evaluation suites,
including base-to-novel generalization, domain generalization, and
cross-dataset evaluation. On generalization, CoPrompt improves the
state-of-the-art on zero-shot tasks and the overall harmonic mean over 11
datasets. Detailed ablation studies show the effectiveness of each of the
components in CoPrompt.
- Abstract(参考訳): 視覚言語モデルのための新しい微調整手法であるConsistency-Guided Prompt Learning (CoPrompt)を提案する。
提案手法は,下流タスクを数ショットで微調整した場合に,大規模な基礎モデルの一般化を改善する。
CoPromptの基本的な考え方は、トレーニング可能なモデルと事前訓練されたモデルの予測に一貫性の制約を適用して、下流タスクの過度な適合を防ぐことである。
さらに,2つの入力に一貫性を強制し,チューニング,プロンプト,アダプタという2つの支配的なパラダイムを組み合わせることで,一貫性の制約をさらに向上させます。
摂動入力における一貫性の強制は、一貫性の制約をさらに規則化し、一般化を改善するのに役立つ。
さらに、アダプタとプロンプトの統合により、下流タスクのパフォーマンスが向上するだけでなく、入出力スペースにおけるチューニング柔軟性も向上している。
これにより、数ショットの学習環境で下流タスクへのより効果的な適応が可能になる。
実験により、CoPromptは、ベース・ツー・ノーベルの一般化、ドメインの一般化、データセット間の評価など、様々な評価スイートにおいて既存の手法よりも優れていることが示された。
一般化では、CoPromptはゼロショットタスクの最先端と11データセットの全体的な調和平均を改善している。
詳細なアブレーション研究は、CoPromptの各成分の有効性を示している。
関連論文リスト
- Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。
実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-04T19:55:32Z) - HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。
本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-11-02T06:43:54Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Revisiting the Robust Generalization of Adversarial Prompt Tuning [4.033827046965844]
本稿では,画像とテキストの特徴のアライメントを高めるために,適応型一貫性誘導型適応型適応型適応プロンプトチューニング(CAPT)フレームワークを提案する。
我々は14のデータセットと4つのデータ空間をまたいだ実験を行い、CAPTが他の最先端の適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-18T02:54:41Z) - RESTORE: Towards Feature Shift for Vision-Language Prompt Learning [33.13407089704543]
ここでは,CLIPの1つの分岐のみに沿った即時チューニングが,誤調整の発生の原因であることを示す。
学習可能なパラメータをさまざまなモダリティで適切に正規化することなく、迅速な学習は元の事前学習制約に違反する。
クロスモーダルな一貫性に明示的な制約を課すマルチモーダルなプロンプト学習手法であるRESTOREを提案する。
論文 参考訳(メタデータ) (2024-03-10T08:52:48Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z) - Conditional Prompt Learning for Vision-Language Models [107.06776396086471]
近ごろ提案されたContext Optimization (CoOp) は、文脈単語をプロンプトで学習可能なベクトルの集合に変換する。
CoOpは、CoOpよりもはるかに優れたクラスを非表示に一般化し、単一のデータセットを超える有望な転送可能性を示している。
我々の実験によると、CoCoOpはCoOpよりもはるかに優れたクラスに一般化しており、単一のデータセットを超える有望な転送可能性を示している。
論文 参考訳(メタデータ) (2022-03-10T18:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。