Fugu-MT 論文翻訳(概要): Learning to Prompt for Vision-Language Models

論文の概要: Learning to Prompt for Vision-Language Models

arxiv url: http://arxiv.org/abs/2109.01134v1
Date: Thu, 2 Sep 2021 17:57:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-03 14:11:14.862196
Title: Learning to Prompt for Vision-Language Models
Title（参考訳）: 視覚言語モデルのための学習
Authors: Kaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu
Abstract要約: 視覚言語による事前学習が表現学習の有望な代替手段として登場した。画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
参考スコア（独自算出の注目度）: 82.25005817904027
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language pre-training has recently emerged as a promising alternative for representation learning. It shifts from the tradition of using images and discrete labels for learning a fixed set of weights, seen as visual concepts, to aligning images and raw text for two separate encoders. Such a paradigm benefits from a broader source of supervision and allows zero-shot transfer to downstream tasks since visual concepts can be diametrically generated from natural language, known as prompt. In this paper, we identify that a major challenge of deploying such models in practice is prompt engineering. This is because designing a proper prompt, especially for context words surrounding a class name, requires domain expertise and typically takes a significant amount of time for words tuning since a slight change in wording could have a huge impact on performance. Moreover, different downstream tasks require specific designs, further hampering the efficiency of deployment. To overcome this challenge, we propose a novel approach named context optimization (CoOp). The main idea is to model context in prompts using continuous representations and perform end-to-end learning from data while keeping the pre-trained parameters fixed. In this way, the design of task-relevant prompts can be fully automated. Experiments on 11 datasets show that CoOp effectively turns pre-trained vision-language models into data-efficient visual learners, requiring as few as one or two shots to beat hand-crafted prompts with a decent margin and able to gain significant improvements when using more shots (e.g., at 16 shots the average gain is around 17% with the highest reaching over 50%). CoOp also exhibits strong robustness to distribution shift.
Abstract（参考訳）: 視覚言語事前学習は、最近、表現学習の有望な代替手段として登場した。画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。このようなパラダイムは、より広範な監督源の恩恵を受け、視覚概念を自然言語からダイメトリック的に生成できるため、下流タスクへのゼロショット転送を可能にする。本稿では,そのようなモデルを実際に展開する上で大きな課題は,プロンプトエンジニアリングであることを示す。これは、特にクラス名を取り巻く文脈語のために適切なプロンプトを設計する場合、ドメインの専門知識が必要であり、ワードの微妙な変更がパフォーマンスに大きな影響を与える可能性があるため、通常、単語チューニングにかなりの時間を要するためである。さらに、異なる下流タスクは特定の設計を必要とし、デプロイメントの効率をさらに妨げます。そこで本研究では,文脈最適化(CoOp)という新しい手法を提案する。主なアイデアは、連続表現を使ってコンテキストをモデル化し、事前訓練されたパラメータを固定しつつ、データからエンドツーエンドの学習を実行することである。このようにタスク関連プロンプトの設計を完全に自動化することができる。 11のデータセットでの実験では、coopは事前訓練済みの視覚言語モデルをデータ効率の良い視覚学習者に効果的に変換し、手作りのプロンプトを適度なマージンで打ち負かし、より多くのショット(例えば16ショットの場合、平均利得は17%程度で50%以上に達する)で大幅に改善することができる。 CoOpはまた、分散シフトに対して強い堅牢性を示す。

関連論文リスト

Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
CLIPパイプラインによる転送可能なグラフニューラルネットワーク(GNN)の構築は、3つの根本的な問題のために難しい。我々は、マルチモーダル・プロンプト・ラーニングを利用して、事前学習したGNNを下流のタスクやデータに効果的に適応させる。我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
論文参考訳（メタデータ） (2024-12-11T08:03:35Z)
Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。 RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文参考訳（メタデータ） (2024-09-10T02:36:13Z)
IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。 IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文参考訳（メタデータ） (2024-06-19T16:37:31Z)
Text as Image: Learning Transferable Adapter for Multi-Label Classification [13.11583340598517]
マルチラベル命令追従テキスト生成に大規模言語モデルを用いるための効果的なアプローチを提案する。このように、ビジュアルラベル認識のための完全に自動化されたパイプラインは、手動のデータに頼ることなく開発される。
論文参考訳（メタデータ） (2023-12-07T09:22:20Z)
PRE: Vision-Language Prompt Learning with Reparameterization Encoder [24.855142164168605]
CLIPのような訓練済みの大規模な視覚言語モデルは、下流タスクへのゼロショット転送可能性に大きな可能性を証明している。最適な性能を得るためには、下流画像分布とテキストクラス記述との整合性を改善するために、手動によるプロンプトの選択が必要である。非自明なプロンプトエンジニアリングを避けるため、最近の作業コンテキスト最適化(CoOp)では、学習可能なテキストトークンを使用して視覚領域にプロンプト学習という概念を導入した。
論文参考訳（メタデータ） (2023-09-14T14:48:01Z)
POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文参考訳（メタデータ） (2023-04-29T22:05:22Z)
Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文参考訳（メタデータ） (2023-03-30T06:02:40Z)
Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文参考訳（メタデータ） (2023-03-16T06:09:15Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。