論文の概要: Consistency-guided Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2306.01195v1
- Date: Thu, 1 Jun 2023 23:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 17:22:15.174550
- Title: Consistency-guided Prompt Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための一貫性誘導型プロンプト学習
- Authors: Shuvendu Roy, Ali Etemad
- Abstract要約: CoPromptは視覚言語モデルのための新しい微調整手法である。
大規模基盤モデルの一般化能力を改善するという課題に対処する。
- 参考スコア(独自算出の注目度): 19.442685015494316
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose Consistency-guided Prompt learning (CoPrompt), a new fine-tuning
method for vision-language models that addresses the challenge of improving the
generalization capability of large foundation models while fine-tuning them on
downstream tasks in a few-shot setting. The basic idea of CoPrompt is to
enforce a consistency constraint in the prediction of the trainable and
pre-trained models to prevent overfitting on the downstream task. Additionally,
we introduce the following two components into our consistency constraint to
further boost the performance: enforcing consistency on two perturbed inputs
and combining two dominant paradigms of tuning, prompting and adapter.
Enforcing consistency on perturbed input further regularizes the consistency
constraint, effectively improving generalization, while tuning additional
parameters with prompting and adapters improves the performance on downstream
tasks. Extensive experiments show that CoPrompt outperforms existing methods on
a range of evaluation suites, including base-to-novel generalization, domain
generalization, and cross-dataset evaluation tasks. On the generalization task,
CoPrompt improves the state-of-the-art by 2.09% on the zero-shot task and 1.93%
on the harmonic mean over 11 recognition datasets. Detailed ablation studies
show the effectiveness of each of the components in CoPrompt.
- Abstract(参考訳): そこで本稿では,視覚言語モデルのための新しい微調整手法copromptを提案する。これは,数ショット設定で下流タスクを微調整しながら,大規模基礎モデルの一般化能力向上の課題に対処するものである。
CoPromptの基本的な考え方は、トレーニング可能なモデルと事前訓練されたモデルの予測に一貫性の制約を適用して、下流タスクの過度な適合を防ぐことである。
さらに,2つの入力に一貫性を強制し,チューニング,プロンプト,アダプタという2つの支配的なパラダイムを組み合わせることで,一貫性の制約をさらに向上させます。
摂動入力における一貫性の強化は、一貫性の制約をさらに規則化し、最適化を効果的に改善すると同時に、プロンプトとアダプタによる追加パラメータのチューニングにより、下流タスクのパフォーマンスが向上する。
広範な実験により、copromptは、ベース・ツー・ノベルの一般化、ドメインの一般化、データセット間の評価タスクなど、さまざまな評価スイートで既存のメソッドよりも優れていることが示されている。
一般化タスクでは、CoPromptはゼロショットタスクで2.09%、11の認識データセットで1.93%改善している。
詳細なアブレーション研究は、CoPromptの各成分の有効性を示している。
関連論文リスト
- Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。
実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-04T19:55:32Z) - HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。
本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-11-02T06:43:54Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Revisiting the Robust Generalization of Adversarial Prompt Tuning [4.033827046965844]
本稿では,画像とテキストの特徴のアライメントを高めるために,適応型一貫性誘導型適応型適応型適応プロンプトチューニング(CAPT)フレームワークを提案する。
我々は14のデータセットと4つのデータ空間をまたいだ実験を行い、CAPTが他の最先端の適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-18T02:54:41Z) - RESTORE: Towards Feature Shift for Vision-Language Prompt Learning [33.13407089704543]
ここでは,CLIPの1つの分岐のみに沿った即時チューニングが,誤調整の発生の原因であることを示す。
学習可能なパラメータをさまざまなモダリティで適切に正規化することなく、迅速な学習は元の事前学習制約に違反する。
クロスモーダルな一貫性に明示的な制約を課すマルチモーダルなプロンプト学習手法であるRESTOREを提案する。
論文 参考訳(メタデータ) (2024-03-10T08:52:48Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z) - Conditional Prompt Learning for Vision-Language Models [107.06776396086471]
近ごろ提案されたContext Optimization (CoOp) は、文脈単語をプロンプトで学習可能なベクトルの集合に変換する。
CoOpは、CoOpよりもはるかに優れたクラスを非表示に一般化し、単一のデータセットを超える有望な転送可能性を示している。
我々の実験によると、CoCoOpはCoOpよりもはるかに優れたクラスに一般化しており、単一のデータセットを超える有望な転送可能性を示している。
論文 参考訳(メタデータ) (2022-03-10T18:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。