Fugu-MT 論文翻訳(概要): Optimizing Prompts for Text-to-Image Generation

論文の概要: Optimizing Prompts for Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2212.09611v1
Date: Mon, 19 Dec 2022 16:50:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 14:50:30.547315
Title: Optimizing Prompts for Text-to-Image Generation
Title（参考訳）: テキストから画像へのプロンプトの最適化
Authors: Yaru Hao, Zewen Chi, Li Dong, Furu Wei
Abstract要約: よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。しかし、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。本稿では,モデル優先のプロンプトにオリジナルのユーザ入力を自動的に適応するフレームワークであるpromise adaptを提案する。
参考スコア（独自算出の注目度）: 91.83920002573643
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Well-designed prompts can guide text-to-image models to generate amazing images. However, the performant prompts are often model-specific and misaligned with user input. Instead of laborious human engineering, we propose prompt adaptation, a general framework that automatically adapts original user input to model-preferred prompts. Specifically, we first perform supervised fine-tuning with a pretrained language model on a small collection of manually engineered prompts. Then we use reinforcement learning to explore better prompts. We define a reward function that encourages the policy to generate more aesthetically pleasing images while preserving the original user intentions. Experimental results on Stable Diffusion show that our method outperforms manual prompt engineering in terms of both automatic metrics and human preference ratings. Moreover, reinforcement learning further boosts performance, especially on out-of-domain prompts. The pretrained checkpoints are available at https://aka.ms/promptist. The demo can be found at https://aka.ms/promptist-demo.
Abstract（参考訳）: よく設計されたプロンプトは、テキストから画像へのモデルをガイドし、素晴らしい画像を生成する。しかしながら、パフォーマンスプロンプトはモデル固有であり、ユーザ入力と不一致であることが多い。本稿では,従来のユーザ入力をモデル優先のプロンプトに自動的に適応する一般的なフレームワークである,プロンプト適応を提案する。具体的には、手作業によるプロンプトの小さなコレクション上で、事前訓練された言語モデルを用いて教師付き微調整を行う。その後、強化学習を使用して、より良いプロンプトを探索します。我々は,本来のユーザ意図を維持しつつ,より美的なイメージを生成するためのポリシーを奨励する報酬関数を定義する。安定拡散実験の結果,本手法は自動測定値と人選好評価値の両方で手動のプロンプト工学よりも優れていた。さらに、強化学習は、特にドメイン外のプロンプトのパフォーマンスをさらに向上させる。事前トレーニングされたチェックポイントはhttps://aka.ms/promptist.comで入手できる。デモはhttps://aka.ms/promptist-demoで見ることができる。

関連論文リスト

VisualPrompter: Prompt Optimization with Visual Feedback for Text-to-Image Synthesis [15.392482488365955]
VisualPrompterはトレーニングフリーのプロンプトエンジニアリングフレームワークで、ユーザー入力をモデル優先の文に洗練する。本フレームワークは,テキスト画像アライメント評価のための複数のベンチマーク上で,最先端性能を実現する。
論文参考訳（メタデータ） (2025-06-29T08:24:39Z)
RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-05-23T06:44:26Z)
Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [55.42794740244581]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文参考訳（メタデータ） (2025-05-22T15:05:07Z)
Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文参考訳（メタデータ） (2024-06-13T00:33:29Z)
Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文参考訳（メタデータ） (2024-04-05T13:44:39Z)
A User-Friendly Framework for Generating Model-Preferred Prompts in Text-to-Image Synthesis [33.71897211776133]
よく設計されたプロンプトは、素晴らしい画像を生成する際にテキストと画像のモデルをガイドする可能性を実証している。初心者にとっては、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。本稿では,ユーザ入力プロンプトをモデル優先プロンプトに自動的に変換する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-20T06:58:49Z)
Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。 Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文参考訳（メタデータ） (2023-12-27T21:12:21Z)
LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for Vision-Language Models [28.983503845298824]
合成テキスト画像は視覚言語モデルにとって良い視覚的プロンプトであることを示す。視覚的プロンプト選択に分類対象を再構成する LoGoPrompt を提案する。本手法は,数ショット学習,ベース・ツー・ニュージェネリゼーション,ドメイン・ジェネリゼーションにおいて,最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2023-09-03T12:23:33Z)
If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文参考訳（メタデータ） (2023-05-22T17:59:41Z)
Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery [55.905769757007185]
本稿では,効率的な勾配に基づく最適化により,ハードテキストのプロンプトを頑健に最適化する手法について述べる。本手法は,テキスト・ツー・イメージ・アプリケーションとテキスト・ツー・テキストアプリケーションの両方に対して,ハードテキスト・ベースのプロンプトを自動生成する。テキストからテキストへの設定では、分類のためのLMのチューニングに有効なハードプロンプトを自動的に発見できることが示される。
論文参考訳（メタデータ） (2023-02-07T18:40:18Z)
Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文参考訳（メタデータ） (2022-10-05T17:05:56Z)
Controllable Generation from Pre-trained Language Models via Inverse Prompting [47.23315683944257]
テキスト生成をよりよく制御する革新的な手法である逆プロンプトを提案する。逆プロンプトは生成されたテキストを使用してビーム探索中に逆プロンプトを予測する。その結果,提案手法はベースラインを大きく上回ることがわかった。
論文参考訳（メタデータ） (2021-03-19T08:36:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。