Fugu-MT 論文翻訳(概要): Conditional Prompt Learning for Vision-Language Models

論文の概要: Conditional Prompt Learning for Vision-Language Models

arxiv url: http://arxiv.org/abs/2203.05557v1
Date: Thu, 10 Mar 2022 18:59:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-11 13:17:18.070338
Title: Conditional Prompt Learning for Vision-Language Models
Title（参考訳）: 視覚言語モデルのための条件付きプロンプト学習
Authors: Kaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu
Abstract要約: 近ごろ提案されたContext Optimization (CoOp) は、文脈単語をプロンプトで学習可能なベクトルの集合に変換する。 CoOpは、CoOpよりもはるかに優れたクラスを非表示に一般化し、単一のデータセットを超える有望な転送可能性を示している。我々の実験によると、CoCoOpはCoOpよりもはるかに優れたクラスに一般化しており、単一のデータセットを超える有望な転送可能性を示している。
参考スコア（独自算出の注目度）: 107.06776396086471
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rise of powerful pre-trained vision-language models like CLIP, it becomes essential to investigate ways to adapt these models to downstream datasets. A recently proposed method named Context Optimization (CoOp) introduces the concept of prompt learning -- a recent trend in NLP -- to the vision domain for adapting pre-trained vision-language models. Specifically, CoOp turns context words in a prompt into a set of learnable vectors and, with only a few labeled images for learning, can achieve huge improvements over intensively-tuned manual prompts. In our study we identify a critical problem of CoOp: the learned context is not generalizable to wider unseen classes within the same dataset, suggesting that CoOp overfits base classes observed during training. To address the problem, we propose Conditional Context Optimization (CoCoOp), which extends CoOp by further learning a lightweight neural network to generate for each image an input-conditional token (vector). Compared to CoOp's static prompts, our dynamic prompts adapt to each instance and are thus less sensitive to class shift. Extensive experiments show that CoCoOp generalizes much better than CoOp to unseen classes, even showing promising transferability beyond a single dataset; and yields stronger domain generalization performance as well. Code is available at https://github.com/KaiyangZhou/CoOp.
Abstract（参考訳）: CLIPのような強力なトレーニング済みの視覚言語モデルの台頭により、これらのモデルを下流データセットに適応させる方法を検討することが不可欠になる。最近提案されたContext Optimization (CoOp) という手法は、事前学習された視覚言語モデルに適応するための視覚領域に、NLPの最近のトレンドである即時学習の概念を導入している。特に、CoOpは、文脈語をプロンプトで学習可能なベクトルの集合に変換し、ラベル付きイメージで学習することで、集中的に調整された手動プロンプトよりも大幅に改善することができる。学習コンテキストは、同じデータセット内のより広い未確認クラスには一般化できないため、CoOpはトレーニング中に観察されたベースクラスに適合する可能性が示唆された。本稿では,各画像に対して入力条件トークン(vector)を生成する軽量ニューラルネットワークをさらに学習することにより,coopを拡張する条件付きコンテキスト最適化(cocoop)を提案する。 CoOpの静的プロンプトと比較すると、動的プロンプトは各インスタンスに適応するので、クラスシフトに敏感ではない。大規模な実験によると、CoCoOpはCoOpよりもはるかに優れた一般化を実現しており、単一のデータセットを超える有望な転送可能性を示している。コードはhttps://github.com/KaiyangZhou/CoOp.comで入手できる。

関連論文リスト

Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文参考訳（メタデータ） (2025-03-11T21:38:34Z)
Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文参考訳（メタデータ） (2024-08-29T12:34:01Z)
IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。 IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文参考訳（メタデータ） (2024-06-19T16:37:31Z)
AAPL: Adding Attributes to Prompt Learning for Vision-Language Models [6.32186874112557]
本稿では,学習可能なプロンプトのバイアスを誘発する際,高次クラス情報から低次視覚強調特徴を分離するための逆トークン埋め込みを提案する。我々は11のデータセットに対して実験を行い、AAPLは、いくつかのショット学習、ゼロショット学習、クロスデータセット、ドメイン一般化タスクにおいて、既存の手法と比較して好成績を示した。
論文参考訳（メタデータ） (2024-04-25T17:51:10Z)
Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。語彙定義意味論(vocabulary-defined semantics)を提案する。
論文参考訳（メタデータ） (2024-01-29T14:29:48Z)
PRE: Vision-Language Prompt Learning with Reparameterization Encoder [24.855142164168605]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文参考訳（メタデータ） (2023-09-14T14:48:01Z)
Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文参考訳（メタデータ） (2022-11-04T02:06:22Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文参考訳（メタデータ） (2021-09-02T17:57:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。