論文の概要: Consistency-guided Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2306.01195v1
- Date: Thu, 1 Jun 2023 23:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 17:22:15.174550
- Title: Consistency-guided Prompt Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための一貫性誘導型プロンプト学習
- Authors: Shuvendu Roy, Ali Etemad
- Abstract要約: CoPromptは視覚言語モデルのための新しい微調整手法である。
大規模基盤モデルの一般化能力を改善するという課題に対処する。
- 参考スコア(独自算出の注目度): 19.442685015494316
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose Consistency-guided Prompt learning (CoPrompt), a new fine-tuning
method for vision-language models that addresses the challenge of improving the
generalization capability of large foundation models while fine-tuning them on
downstream tasks in a few-shot setting. The basic idea of CoPrompt is to
enforce a consistency constraint in the prediction of the trainable and
pre-trained models to prevent overfitting on the downstream task. Additionally,
we introduce the following two components into our consistency constraint to
further boost the performance: enforcing consistency on two perturbed inputs
and combining two dominant paradigms of tuning, prompting and adapter.
Enforcing consistency on perturbed input further regularizes the consistency
constraint, effectively improving generalization, while tuning additional
parameters with prompting and adapters improves the performance on downstream
tasks. Extensive experiments show that CoPrompt outperforms existing methods on
a range of evaluation suites, including base-to-novel generalization, domain
generalization, and cross-dataset evaluation tasks. On the generalization task,
CoPrompt improves the state-of-the-art by 2.09% on the zero-shot task and 1.93%
on the harmonic mean over 11 recognition datasets. Detailed ablation studies
show the effectiveness of each of the components in CoPrompt.
- Abstract(参考訳): そこで本稿では,視覚言語モデルのための新しい微調整手法copromptを提案する。これは,数ショット設定で下流タスクを微調整しながら,大規模基礎モデルの一般化能力向上の課題に対処するものである。
CoPromptの基本的な考え方は、トレーニング可能なモデルと事前訓練されたモデルの予測に一貫性の制約を適用して、下流タスクの過度な適合を防ぐことである。
さらに,2つの入力に一貫性を強制し,チューニング,プロンプト,アダプタという2つの支配的なパラダイムを組み合わせることで,一貫性の制約をさらに向上させます。
摂動入力における一貫性の強化は、一貫性の制約をさらに規則化し、最適化を効果的に改善すると同時に、プロンプトとアダプタによる追加パラメータのチューニングにより、下流タスクのパフォーマンスが向上する。
広範な実験により、copromptは、ベース・ツー・ノベルの一般化、ドメインの一般化、データセット間の評価タスクなど、さまざまな評価スイートで既存のメソッドよりも優れていることが示されている。
一般化タスクでは、CoPromptはゼロショットタスクで2.09%、11の認識データセットで1.93%改善している。
詳細なアブレーション研究は、CoPromptの各成分の有効性を示している。
関連論文リスト
- RESTORE: Towards Feature Shift for Vision-Language Prompt Learning [33.13407089704543]
ここでは,CLIPの1つの分岐のみに沿った即時チューニングが,誤調整の発生の原因であることを示す。
学習可能なパラメータをさまざまなモダリティで適切に正規化することなく、迅速な学習は元の事前学習制約に違反する。
クロスモーダルな一貫性に明示的な制約を課すマルチモーダルなプロンプト学習手法であるRESTOREを提案する。
論文 参考訳(メタデータ) (2024-03-10T08:52:48Z) - Weakly Supervised Co-training with Swapping Assignments for Semantic
Segmentation [23.318478633472253]
クラスアクティベーションマップ(CAM)は通常、擬似ラベルを生成するために弱教師付きセマンティックセマンティックセグメンテーション(WSSS)で使用される。
我々は、ガイド付きCAMを組み込んだエンドツーエンドWSSSモデルを提案し、CAMをオンラインで同時最適化しながらセグメンテーションモデルを訓練する。
CoSAは、追加の監督を持つものを含む、既存のマルチステージメソッドをすべて上回る、最初のシングルステージアプローチである。
論文 参考訳(メタデータ) (2024-02-27T21:08:23Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Generalized Few-Shot Continual Learning with Contrastive Mixture of
Adapters [59.82088750033897]
我々は,クラスおよびドメインインクリメンタルな状況を含む汎用FSCL (GFSCL) プロトコルを構築した。
一般的な連続学習手法は、目に見えない領域に一般化能力が乏しいことが判明した。
このようにして、視覚変換器(ViT)に基づくリハーサルフリーフレームワークであるContrastive Mixture of Adapters(CMoA)を提案する。
論文 参考訳(メタデータ) (2023-02-12T15:18:14Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z) - Conditional Prompt Learning for Vision-Language Models [107.06776396086471]
近ごろ提案されたContext Optimization (CoOp) は、文脈単語をプロンプトで学習可能なベクトルの集合に変換する。
CoOpは、CoOpよりもはるかに優れたクラスを非表示に一般化し、単一のデータセットを超える有望な転送可能性を示している。
我々の実験によると、CoCoOpはCoOpよりもはるかに優れたクラスに一般化しており、単一のデータセットを超える有望な転送可能性を示している。
論文 参考訳(メタデータ) (2022-03-10T18:59:41Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。