論文の概要: LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2309.01155v2
- Date: Fri, 22 Sep 2023 02:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 17:54:53.620889
- Title: LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for
Vision-Language Models
- Title(参考訳): LoGoPrompt:視覚言語モデルに最適な合成テキスト画像
- Authors: Cheng Shi and Sibei Yang
- Abstract要約: 合成テキスト画像は視覚言語モデルにとって良い視覚的プロンプトであることを示す。
視覚的プロンプト選択に分類対象を再構成する LoGoPrompt を提案する。
本手法は,数ショット学習,ベース・ツー・ニュージェネリゼーション,ドメイン・ジェネリゼーションにおいて,最先端の手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 28.983503845298824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt engineering is a powerful tool used to enhance the performance of
pre-trained models on downstream tasks. For example, providing the prompt
"Let's think step by step" improved GPT-3's reasoning accuracy to 63% on
MutiArith while prompting "a photo of" filled with a class name enables CLIP to
achieve $80$\% zero-shot accuracy on ImageNet. While previous research has
explored prompt learning for the visual modality, analyzing what constitutes a
good visual prompt specifically for image recognition is limited. In addition,
existing visual prompt tuning methods' generalization ability is worse than
text-only prompting tuning. This paper explores our key insight: synthetic text
images are good visual prompts for vision-language models! To achieve that, we
propose our LoGoPrompt, which reformulates the classification objective to the
visual prompt selection and addresses the chicken-and-egg challenge of first
adding synthetic text images as class-wise visual prompts or predicting the
class first. Without any trainable visual prompt parameters, experimental
results on 16 datasets demonstrate that our method consistently outperforms
state-of-the-art methods in few-shot learning, base-to-new generalization, and
domain generalization.
- Abstract(参考訳): Prompt Engineeringは、下流タスクでトレーニング済みモデルのパフォーマンスを向上させるために使用される強力なツールである。
例えば、"Let's Think by Step" というプロンプトで GPT-3 の推論精度を MutiArith 上で 63% に向上させ、クラス名で満たされた"写真" によって、CLIP は ImageNet 上で 80$\% のゼロショット精度を達成できる。
従来の研究では、視覚的モダリティの迅速な学習が検討されているが、画像認識に特有な視覚的プロンプトを構成するものの分析は限られている。
さらに、既存のビジュアルプロンプトチューニングメソッドの一般化能力は、テキストのみのプロンプトチューニングよりも悪い。
合成テキスト画像は視覚言語モデルのための優れた視覚的プロンプトです!
そこで本研究では,分類対象を視覚的プロンプト選択に再構成し,合成テキストイメージをクラスワイズな視覚的プロンプトとして,あるいはクラスファーストで予測するというニワトリとエッグの課題に対処するLoGoPromptを提案する。
トレーニング可能な視覚的プロンプトパラメータがなければ、16のデータセットの実験結果から、我々の手法は、数ショットの学習、ベース・ツー・ニュージェネリゼーション、ドメインの一般化において、常に最先端の手法より優れていることが示される。
関連論文リスト
- ConES: Concept Embedding Search for Parameter Efficient Tuning Large
Vision Language Models [21.15548013842187]
本稿では,迅速な埋め込みを最適化してConES(Concept Embedding Search)アプローチを提案する。
テキストエンコーダをドロップすることで、学習プロセスを大幅に高速化することができます。
我々のアプローチは、様々なダウンストリームタスクにおいて、即時チューニングとテキストの反転メソッドを破ることができる。
論文 参考訳(メタデータ) (2023-05-30T12:45:49Z) - Chain of Thought Prompt Tuning in Vision Language Models [29.85907584680661]
本稿では,視覚言語モデリングのための思考プロンプトチューニング手法を提案する。
私たちは、視覚とテキストの埋め込みを組み合わせたチェーン・オブ・シークレットのプロンプトを成功させた最初の人物です。
論文 参考訳(メタデータ) (2023-04-16T23:59:25Z) - Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文 参考訳(メタデータ) (2023-03-30T17:37:14Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Optimizing Prompts for Text-to-Image Generation [97.61295501273288]
よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。
しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。
本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:50:41Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。