論文の概要: LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2309.01155v2
- Date: Fri, 22 Sep 2023 02:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 17:54:53.620889
- Title: LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for
Vision-Language Models
- Title(参考訳): LoGoPrompt:視覚言語モデルに最適な合成テキスト画像
- Authors: Cheng Shi and Sibei Yang
- Abstract要約: 合成テキスト画像は視覚言語モデルにとって良い視覚的プロンプトであることを示す。
視覚的プロンプト選択に分類対象を再構成する LoGoPrompt を提案する。
本手法は,数ショット学習,ベース・ツー・ニュージェネリゼーション,ドメイン・ジェネリゼーションにおいて,最先端の手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 28.983503845298824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt engineering is a powerful tool used to enhance the performance of
pre-trained models on downstream tasks. For example, providing the prompt
"Let's think step by step" improved GPT-3's reasoning accuracy to 63% on
MutiArith while prompting "a photo of" filled with a class name enables CLIP to
achieve $80$\% zero-shot accuracy on ImageNet. While previous research has
explored prompt learning for the visual modality, analyzing what constitutes a
good visual prompt specifically for image recognition is limited. In addition,
existing visual prompt tuning methods' generalization ability is worse than
text-only prompting tuning. This paper explores our key insight: synthetic text
images are good visual prompts for vision-language models! To achieve that, we
propose our LoGoPrompt, which reformulates the classification objective to the
visual prompt selection and addresses the chicken-and-egg challenge of first
adding synthetic text images as class-wise visual prompts or predicting the
class first. Without any trainable visual prompt parameters, experimental
results on 16 datasets demonstrate that our method consistently outperforms
state-of-the-art methods in few-shot learning, base-to-new generalization, and
domain generalization.
- Abstract(参考訳): Prompt Engineeringは、下流タスクでトレーニング済みモデルのパフォーマンスを向上させるために使用される強力なツールである。
例えば、"Let's Think by Step" というプロンプトで GPT-3 の推論精度を MutiArith 上で 63% に向上させ、クラス名で満たされた"写真" によって、CLIP は ImageNet 上で 80$\% のゼロショット精度を達成できる。
従来の研究では、視覚的モダリティの迅速な学習が検討されているが、画像認識に特有な視覚的プロンプトを構成するものの分析は限られている。
さらに、既存のビジュアルプロンプトチューニングメソッドの一般化能力は、テキストのみのプロンプトチューニングよりも悪い。
合成テキスト画像は視覚言語モデルのための優れた視覚的プロンプトです!
そこで本研究では,分類対象を視覚的プロンプト選択に再構成し,合成テキストイメージをクラスワイズな視覚的プロンプトとして,あるいはクラスファーストで予測するというニワトリとエッグの課題に対処するLoGoPromptを提案する。
トレーニング可能な視覚的プロンプトパラメータがなければ、16のデータセットの実験結果から、我々の手法は、数ショットの学習、ベース・ツー・ニュージェネリゼーション、ドメインの一般化において、常に最先端の手法より優れていることが示される。
関連論文リスト
- Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt [15.259819430801402]
この問題を解決するために,暗黙的な視覚的プロンプトチューニングのための擬似視覚プロンプト(PVP)モジュールを提案する。
具体的には、まず各カテゴリの擬似視覚的プロンプトを学習し、事前学習された視覚言語モデルのよく整合した空間によって多様な視覚的知識をマイニングする。
VOC2007, MS-COCO, NUSWIDEデータセットによる実験結果から, 本手法がSOTA(State-of-the-art(SOTA)法を超えることを示す。
論文 参考訳(メタデータ) (2024-05-11T06:11:42Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Optimizing Prompts for Text-to-Image Generation [97.61295501273288]
よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。
しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。
本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:50:41Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。