論文の概要: PromptSculptor: Multi-Agent Based Text-to-Image Prompt Optimization
- arxiv url: http://arxiv.org/abs/2509.12446v1
- Date: Mon, 15 Sep 2025 20:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.761509
- Title: PromptSculptor: Multi-Agent Based Text-to-Image Prompt Optimization
- Title(参考訳): PromptSculptor: マルチエージェントベースのテキスト-画像プロンプト最適化
- Authors: Dawei Xiang, Wenyan Xu, Kexin Chu, Zixu Shen, Tianqi Ding, Wei Zhang,
- Abstract要約: 高品質な画像を生成するには、ユーザーはシーン、スタイル、コンテキストを指定する詳細なプロンプトを作成する必要がある。
本稿では,この反復的プロンプト最適化プロセスを自動化する新しいマルチエージェントフレームワークPromptSculptorを提案する。
我々のシステムは、タスクを4つの特殊エージェントに分解し、短いあいまいなユーザープロンプトを包括的で洗練されたプロンプトに変換する。
- 参考スコア(独自算出の注目度): 3.518020275106329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of generative AI has democratized access to powerful tools such as Text-to-Image models. However, to generate high-quality images, users must still craft detailed prompts specifying scene, style, and context-often through multiple rounds of refinement. We propose PromptSculptor, a novel multi-agent framework that automates this iterative prompt optimization process. Our system decomposes the task into four specialized agents that work collaboratively to transform a short, vague user prompt into a comprehensive, refined prompt. By leveraging Chain-of-Thought reasoning, our framework effectively infers hidden context and enriches scene and background details. To iteratively refine the prompt, a self-evaluation agent aligns the modified prompt with the original input, while a feedback-tuning agent incorporates user feedback for further refinement. Experimental results demonstrate that PromptSculptor significantly enhances output quality and reduces the number of iterations needed for user satisfaction. Moreover, its model-agnostic design allows seamless integration with various T2I models, paving the way for industrial applications.
- Abstract(参考訳): 生成AIの急速な進歩は、テキスト・ツー・イメージ・モデルのような強力なツールへのアクセスを民主化した。
しかし、高品質な画像を生成するには、複数の改善ラウンドを通じてシーン、スタイル、コンテキストを指定した詳細なプロンプトを作成せざるを得ない。
本稿では,この反復的プロンプト最適化プロセスを自動化する新しいマルチエージェントフレームワークPromptSculptorを提案する。
我々のシステムは、タスクを4つの特殊エージェントに分解し、短いあいまいなユーザープロンプトを包括的で洗練されたプロンプトに変換する。
チェーン・オブ・ソート推論を活用することで、隠れたコンテキストを効果的に推論し、シーンや背景の詳細を豊かにする。
このプロンプトを反復的に洗練させるため、自己評価エージェントは修正されたプロンプトを元の入力と整列させ、フィードバック調整エージェントはユーザーフィードバックを組み込んでさらなる洗練を図る。
実験の結果,PromptSculptorは出力品質を大幅に向上し,ユーザの満足度向上に必要なイテレーション数を削減できることがわかった。
さらに、そのモデルに依存しない設計は、様々なT2Iモデルとのシームレスな統合を可能にし、産業アプリケーションへの道を開いた。
関連論文リスト
- VisualPrompter: Prompt Optimization with Visual Feedback for Text-to-Image Synthesis [15.392482488365955]
VisualPrompterはトレーニングフリーのプロンプトエンジニアリングフレームワークで、ユーザー入力をモデル優先の文に洗練する。
本フレームワークは,テキスト画像アライメント評価のための複数のベンチマーク上で,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-29T08:24:39Z) - RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [61.31036260686349]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。
具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。
努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文 参考訳(メタデータ) (2025-05-22T15:05:07Z) - Enhancing Intent Understanding for Ambiguous prompt: A Human-Machine Co-Adaption Strategy [30.344943584233466]
ユーザのプロンプトと修正中の画像の相互情報を用いた人間機械協調型適応戦略を提案する。
改良されたモデルにより、複数ラウンドの調整の必要性が軽減されることが判明した。
論文 参考訳(メタデータ) (2025-01-25T10:32:00Z) - What Do You Want? User-centric Prompt Generation for Text-to-image Synthesis via Multi-turn Guidance [23.411806572667707]
テキスト・ツー・イメージ合成(TIS)モデルは、テキスト・プロンプトの品質と特異性に大きく依存している。
既存のソリューションは、ユーザクエリから自動モデル優先のプロンプト生成を通じてこれを緩和する。
ユーザ中心性を重視したマルチターン対話型TISプロンプト生成モデルであるDialPromptを提案する。
論文 参考訳(メタデータ) (2024-08-23T08:35:35Z) - Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。
プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。
予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文 参考訳(メタデータ) (2024-06-13T00:33:29Z) - A User-Friendly Framework for Generating Model-Preferred Prompts in
Text-to-Image Synthesis [33.71897211776133]
よく設計されたプロンプトは、素晴らしい画像を生成する際にテキストと画像のモデルをガイドする可能性を実証している。
初心者にとっては、手動でプロンプトを入力することで、望ましい結果を達成することは困難である。
本稿では,ユーザ入力プロンプトをモデル優先プロンプトに自動的に変換する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T06:58:49Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。