論文の概要: Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt
Tuning and Discovery
- arxiv url: http://arxiv.org/abs/2302.03668v1
- Date: Tue, 7 Feb 2023 18:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 15:10:09.377389
- Title: Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt
Tuning and Discovery
- Title(参考訳): ハードプロンプトが容易になった:プロンプトチューニングと発見のための勾配に基づく離散最適化
- Authors: Yuxin Wen, Neel Jain, John Kirchenbauer, Micah Goldblum, Jonas
Geiping, Tom Goldstein
- Abstract要約: 本稿では,効率的な勾配に基づく最適化により,ハードテキストのプロンプトを頑健に最適化する手法について述べる。
本手法は,テキスト・ツー・イメージ・アプリケーションとテキスト・ツー・テキストアプリケーションの両方に対して,ハードテキスト・ベースのプロンプトを自動生成する。
テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることが示される。
- 参考スコア(独自算出の注目度): 55.905769757007185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The strength of modern generative models lies in their ability to be
controlled through text-based prompts. Typical "hard" prompts are made from
interpretable words and tokens, and must be hand-crafted by humans. There are
also "soft" prompts, which consist of continuous feature vectors. These can be
discovered using powerful optimization methods, but they cannot be easily
interpreted, re-used across models, or plugged into a text-based interface.
We describe an approach to robustly optimize hard text prompts through
efficient gradient-based optimization. Our approach automatically generates
hard text-based prompts for both text-to-image and text-to-text applications.
In the text-to-image setting, the method creates hard prompts for diffusion
models, allowing API users to easily generate, discover, and mix and match
image concepts without prior knowledge on how to prompt the model. In the
text-to-text setting, we show that hard prompts can be automatically discovered
that are effective in tuning LMs for classification.
- Abstract(参考訳): 現代の生成モデルの強みは、テキストベースのプロンプトによって制御できる能力にある。
典型的な「硬い」プロンプトは解釈可能な単語とトークンから作られ、人間が手作りしなければならない。
連続的な特徴ベクトルからなる"ソフト"プロンプトもある。
これらは強力な最適化手法で発見できるが、容易に解釈したり、モデル間で再使用したり、テキストベースのインターフェイスに差し込むことはできない。
本稿では,効率的な勾配に基づく最適化により,テキストプロンプトを頑健に最適化する手法について述べる。
本手法では,テキストから画像へのプロンプトとテキストからテキストへのプロンプトの両方に対して,テキストベースのプロンプトを自動的に生成する。
テキスト・トゥ・イメージ・セッティングでは、拡散モデルのハードプロンプトを生成し、モデルのプロンプトに関する事前知識なしに、APIユーザーが容易に画像概念を生成、発見、混合できる。
テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることを示す。
関連論文リスト
- IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - Mixture of Prompt Learning for Vision Language Models [12.828490399811376]
ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。
このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。
また、意味的にグループ化されたテキストレベルの監視を実装し、各ソフトプロンプトを、そのグループから手動で設計されたテンプレートのトークン埋め込みで初期化する。
論文 参考訳(メタデータ) (2024-09-18T14:25:02Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - A User-Friendly Framework for Generating Model-Preferred Prompts in
Text-to-Image Synthesis [33.71897211776133]
よく設計されたプロンプトは、素晴らしい画像を生成する際にテキストと画像のモデルをガイドする可能性を実証している。
初心者にとっては、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。
本稿では,ユーザ入力プロンプトをモデル優先プロンプトに自動的に変換する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T06:58:49Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。