論文の概要: Prompt Learning with Optimal Transport for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2210.01253v1
- Date: Mon, 3 Oct 2022 22:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 12:55:05.011467
- Title: Prompt Learning with Optimal Transport for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための最適輸送を用いたプロンプト学習
- Authors: Guangyi Chen, Weiran Yao, Xiangchen Song, Xinyue Li, Yongming Rao, Kun
Zhang
- Abstract要約: 複数の包括的プロンプトを学習し、内在的属性や外在的文脈などのカテゴリの特徴を多様に記述する。
この問題を解決するために,視覚とテキストのモダリティに最適なトランスポートを提案する。
内ループでは、視覚的特徴とプロンプトをシンクホーンアルゴリズムで調整するために最適な輸送距離を最適化する一方、外ループでは、教師付きデータからこの距離でプロンプトを学習する。
- 参考スコア(独自算出の注目度): 25.928455328563402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing attention to large vision-language models such as CLIP,
there has been a significant amount of effort dedicated to building efficient
prompts. Unlike conventional methods of only learning one single prompt, we
propose to learn multiple comprehensive prompts to describe diverse
characteristics of categories such as intrinsic attributes or extrinsic
contexts. However, directly matching each prompt to the same visual feature is
problematic, as it pushes the prompts to converge to one point. To solve this
problem, we propose to apply optimal transport to match the vision and text
modalities. Specifically, we first model images and the categories with visual
and textual feature sets. Then, we apply a two-stage optimization strategy to
learn the prompts. In the inner loop, we optimize the optimal transport
distance to align visual features and prompts by the Sinkhorn algorithm, while
in the outer loop, we learn the prompts by this distance from the supervised
data. Extensive experiments are conducted on the few-shot recognition task and
the improvement demonstrates the superiority of our method.
- Abstract(参考訳): CLIPのような大きな視覚言語モデルへの注目が高まり、効率的なプロンプトの構築に多くの努力が注がれている。
従来の1つのプロンプトのみを学習する手法とは異なり,固有属性や外部文脈といったカテゴリの多様な特徴を記述するために,複数の包括的プロンプトを学習することを提案する。
しかし、プロンプトを同じビジュアル機能に直接マッチさせることは問題であり、プロンプトがひとつのポイントに収束するように促す。
この問題を解決するために,視覚とテキストのモダリティに最適なトランスポートを適用することを提案する。
具体的には、まず画像とカテゴリを視覚とテキストの特徴セットでモデル化する。
次に,プロンプトの学習に2段階最適化手法を適用する。
内部ループでは、視覚特徴とプロンプトをシンクホーンアルゴリズムによって調整するために最適な輸送距離を最適化し、外側ループでは教師ありデータからこの距離でプロンプトを学習する。
少ないショット認識タスクについて広範囲な実験を行い,提案手法の優位性を実証した。
関連論文リスト
- Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - Tuning Multi-mode Token-level Prompt Alignment across Modalities [48.39511580746271]
本稿では,多モードのトークンレベルチューニングフレームワークを提案し,モジュール間のプロンプトトークンの集合を学習・調整する。
具体的には、1) 多様な意味表現を保証するマルチモードプロンプト発見、2) トークンレベルのアライメント、そして、きめ細かい類似性を探索する。
一般的な画像認識ベンチマークの実験では、我々のアプローチのより優れた一般化と少ないショット能力を示している。
論文 参考訳(メタデータ) (2023-09-25T03:20:09Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - ConES: Concept Embedding Search for Parameter Efficient Tuning Large
Vision Language Models [21.15548013842187]
本稿では,迅速な埋め込みを最適化してConES(Concept Embedding Search)アプローチを提案する。
テキストエンコーダをドロップすることで、学習プロセスを大幅に高速化することができます。
我々のアプローチは、様々なダウンストリームタスクにおいて、即時チューニングとテキストの反転メソッドを破ることができる。
論文 参考訳(メタデータ) (2023-05-30T12:45:49Z) - Multi-Prompt with Depth Partitioned Cross-Modal Learning [25.239388488952375]
Partitioned Multi-modal Prompt (PMPO) は、単一の学習可能なプロンプトから複数のプロンプトへのソフトプロンプトを拡張するマルチモーダルプロンプト技術である。
本手法は,視覚エンコーダ深度を分割し,学習可能なプロンプトを分離した視覚深度に接続することにより,階層的な文脈深度を捉えることができる。
我々は,新しいクラス一般化,クロスデータセット評価,ドメイン一般化の3つの課題に対して,アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-10T14:54:29Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。