論文の概要: What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance
- arxiv url: http://arxiv.org/abs/2408.12910v1
- Date: Fri, 23 Aug 2024 08:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 15:40:04.906626
- Title: What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance
- Title(参考訳): 何が欲しいのか? マルチターン誘導によるテキスト・画像合成のためのユーザ中心のプロンプト生成
- Authors: Yilun Liu, Minggui He, Feiyu Yao, Yuhe Ji, Shimin Tao, Jingzhou Du, Duan Li, Jian Gao, Li Zhang, Hao Yang, Boxing Chen, Osamu Yoshie,
- Abstract要約: テキスト・ツー・イメージ合成(TIS)モデルは、テキスト・プロンプトの品質と特異性に大きく依存している。
既存のソリューションは、ユーザクエリから自動モデル優先のプロンプト生成を通じてこれを緩和する。
ユーザ中心性を重視したマルチターン対話型TISプロンプト生成モデルであるDialPromptを提案する。
- 参考スコア(独自算出の注目度): 23.411806572667707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of text-to-image synthesis (TIS) models has significantly influenced digital image creation by producing high-quality visuals from written descriptions. Yet these models heavily rely on the quality and specificity of textual prompts, posing a challenge for novice users who may not be familiar with TIS-model-preferred prompt writing. Existing solutions relieve this via automatic model-preferred prompt generation from user queries. However, this single-turn manner suffers from limited user-centricity in terms of result interpretability and user interactivity. To address these issues, we propose DialPrompt, a multi-turn dialogue-based TIS prompt generation model that emphasises user-centricity. DialPrompt is designed to follow a multi-turn guidance workflow, where in each round of dialogue the model queries user with their preferences on possible optimization dimensions before generating the final TIS prompt. To achieve this, we mined 15 essential dimensions for high-quality prompts from advanced users and curated a multi-turn dataset. Through training on this dataset, DialPrompt can improve interpretability by allowing users to understand the correlation between specific phrases and image attributes. Additionally, it enables greater user control and engagement in the prompt generation process, leading to more personalized and visually satisfying outputs. Experiments indicate that DialPrompt achieves a competitive result in the quality of synthesized images, outperforming existing prompt engineering approaches by 5.7%. Furthermore, in our user evaluation, DialPrompt outperforms existing approaches by 46.5% in user-centricity score and is rated 7.9/10 by 19 human reviewers.
- Abstract(参考訳): テキスト・ツー・イメージ合成(TIS)モデルの出現は、記述書から高品質な視覚を生成することによって、デジタル画像生成に大きな影響を与えている。
しかし、これらのモデルはテキストプロンプトの品質と特異性に大きく依存しており、TISモデルで推奨されるプロンプトに慣れていない初心者ユーザーにとっては課題となっている。
既存のソリューションは、ユーザクエリから自動モデル優先のプロンプト生成を通じてこれを緩和する。
しかし、このシングルターン方式は、結果の解釈可能性やユーザ対話性の観点から、限られたユーザー中心性に悩まされている。
これらの問題に対処するため,ユーザ中心性を重視したマルチターン対話型TISプロンプト生成モデルであるDialPromptを提案する。
DialPromptはマルチターンガイダンスワークフローに従うように設計されている。各ラウンドの対話において、モデルが最終的なTISプロンプトを生成する前に、最適化次元に関する好みをユーザに問い合わせる。
これを実現するために、先進的なユーザからの高品質なプロンプトのための15の必須次元をマイニングし、マルチターンデータセットをキュレートした。
このデータセットのトレーニングを通じて、DialPromptは、特定のフレーズと画像属性の相関を理解することによって、解釈可能性を改善することができる。
さらに、即時生成プロセスにおけるユーザコントロールとエンゲージメントの向上を可能にし、よりパーソナライズされ、視覚的に満足するアウトプットを実現する。
実験の結果、ダイアルプロンプトは合成画像の品質において競争力のある結果をもたらすことが示され、既存の急進的な技術アプローチを5.7%上回った。
さらに,ユーザ評価において,ダイアルプロンプトは既存手法を46.5%上回り,19人のレビュアーによって7.9/10と評価されている。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - PromptCharm: Text-to-Image Generation through Multi-modal Prompting and
Refinement [12.55886762028225]
PromptCharmは,マルチモーダル・プロンプト・エンジニアリングと改良によるテキスト・ツー・イメージ作成を容易にするシステムである。
PromptCharmは、ユーザーの初期プロンプトを自動的に洗練し、最適化する。
大規模なデータベース内で、さまざまなイメージスタイルを探索し、選択するのをサポートする。
モデルの注意値を視覚化することで、モデル説明を描画する。
論文 参考訳(メタデータ) (2024-03-06T19:55:01Z) - A User-Friendly Framework for Generating Model-Preferred Prompts in
Text-to-Image Synthesis [33.71897211776133]
よく設計されたプロンプトは、素晴らしい画像を生成する際にテキストと画像のモデルをガイドする可能性を実証している。
初心者にとっては、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。
本稿では,ユーザ入力プロンプトをモデル優先プロンプトに自動的に変換する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T06:58:49Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - RELIC: Investigating Large Language Model Responses using Self-Consistency [58.63436505595177]
LLM(Large Language Models)は、フィクションと事実を混同し、幻覚として知られる非事実コンテンツを生成することで有名である。
本稿では,ユーザが生成したテキストの信頼性を把握できる対話型システムを提案する。
論文 参考訳(メタデータ) (2023-11-28T14:55:52Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting [13.252755478909899]
本稿では,3115名のユーザから300万以上のプロンプトを収集した大規模テキスト画像データセットに基づいて,ユーザプロンプトを書き換える新たなアプローチを提案する。
我々の書き換えモデルは、ユーザプロンプトの表現力とアライメントを意図した視覚的出力で向上させる。
論文 参考訳(メタデータ) (2023-10-12T08:36:25Z) - PromptMagician: Interactive Prompt Engineering for Text-to-Image
Creation [16.41459454076984]
本研究では,画像の検索結果を探索し,入力プロンプトを洗練させる視覚解析システムであるPromptMagicianを提案する。
システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連性の高い)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。
論文 参考訳(メタデータ) (2023-07-18T07:46:25Z) - Promptify: Text-to-Image Generation through Interactive Prompt
Exploration with Large Language Models [29.057923932305123]
本稿では,テキスト・ツー・イメージ生成モデルの迅速な探索と改良を支援する対話型システムであるPromptifyを提案する。
本稿では,Promptifyがテキスト・ツー・イメージ・ワークフローを効果的に促進し,テキスト・ツー・イメージ生成に広く使用されている既存のベースライン・ツールより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-18T22:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。