論文の概要: Learning to Prompt for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2109.01134v1
- Date: Thu, 2 Sep 2021 17:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 14:11:14.862196
- Title: Learning to Prompt for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための学習
- Authors: Kaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu
- Abstract要約: 視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
- 参考スコア(独自算出の注目度): 82.25005817904027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training has recently emerged as a promising alternative
for representation learning. It shifts from the tradition of using images and
discrete labels for learning a fixed set of weights, seen as visual concepts,
to aligning images and raw text for two separate encoders. Such a paradigm
benefits from a broader source of supervision and allows zero-shot transfer to
downstream tasks since visual concepts can be diametrically generated from
natural language, known as prompt. In this paper, we identify that a major
challenge of deploying such models in practice is prompt engineering. This is
because designing a proper prompt, especially for context words surrounding a
class name, requires domain expertise and typically takes a significant amount
of time for words tuning since a slight change in wording could have a huge
impact on performance. Moreover, different downstream tasks require specific
designs, further hampering the efficiency of deployment. To overcome this
challenge, we propose a novel approach named context optimization (CoOp). The
main idea is to model context in prompts using continuous representations and
perform end-to-end learning from data while keeping the pre-trained parameters
fixed. In this way, the design of task-relevant prompts can be fully automated.
Experiments on 11 datasets show that CoOp effectively turns pre-trained
vision-language models into data-efficient visual learners, requiring as few as
one or two shots to beat hand-crafted prompts with a decent margin and able to
gain significant improvements when using more shots (e.g., at 16 shots the
average gain is around 17% with the highest reaching over 50%). CoOp also
exhibits strong robustness to distribution shift.
- Abstract(参考訳): 視覚言語事前学習は、最近、表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監督源の恩恵を受け、視覚概念を自然言語からダイメトリック的に生成できるため、下流タスクへのゼロショット転送を可能にする。
本稿では,そのようなモデルを実際に展開する上で大きな課題は,プロンプトエンジニアリングであることを示す。
これは、特にクラス名を取り巻く文脈語のために適切なプロンプトを設計する場合、ドメインの専門知識が必要であり、ワードの微妙な変更がパフォーマンスに大きな影響を与える可能性があるため、通常、単語チューニングにかなりの時間を要するためである。
さらに、異なる下流タスクは特定の設計を必要とし、デプロイメントの効率をさらに妨げます。
そこで本研究では,文脈最適化(CoOp)という新しい手法を提案する。
主なアイデアは、連続表現を使ってコンテキストをモデル化し、事前訓練されたパラメータを固定しつつ、データからエンドツーエンドの学習を実行することである。
このようにタスク関連プロンプトの設計を完全に自動化することができる。
11のデータセットでの実験では、coopは事前訓練済みの視覚言語モデルをデータ効率の良い視覚学習者に効果的に変換し、手作りのプロンプトを適度なマージンで打ち負かし、より多くのショット(例えば16ショットの場合、平均利得は17%程度で50%以上に達する)で大幅に改善することができる。
CoOpはまた、分散シフトに対して強い堅牢性を示す。
関連論文リスト
- Text as Image: Learning Transferable Adapter for Multi-Label
Classification [13.11583340598517]
マルチラベル命令追従テキスト生成に大規模言語モデルを用いるための効果的なアプローチを提案する。
このように、ビジュアルラベル認識のための完全に自動化されたパイプラインは、手動のデータに頼ることなく開発される。
論文 参考訳(メタデータ) (2023-12-07T09:22:20Z) - PRE: Vision-Language Prompt Learning with Reparameterization Encoder [26.017809323969285]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。
最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。
非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文 参考訳(メタデータ) (2023-09-14T14:48:01Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。