論文の概要: Maestro: Self-Improving Text-to-Image Generation via Agent Orchestration
- arxiv url: http://arxiv.org/abs/2509.10704v1
- Date: Fri, 12 Sep 2025 21:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.742159
- Title: Maestro: Self-Improving Text-to-Image Generation via Agent Orchestration
- Title(参考訳): Maestro: エージェントオーケストレーションによる自己改善型テキスト画像生成
- Authors: Xingchen Wan, Han Zhou, Ruoxi Sun, Hootan Nakhost, Ke Jiang, Rajarishi Sinha, Sercan Ö. Arık,
- Abstract要約: Maestroは、テキスト・ツー・イメージ(T2I)モデルのための新しい自己進化画像生成システムである。
これにより、T2Iモデルはプロンプトの反復的進化を通じて、生成した画像を自律的に自己改善することができる。
- 参考スコア(独自算出の注目度): 25.483518198712275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) models, while offering immense creative potential, are highly reliant on human intervention, posing significant usability challenges that often necessitate manual, iterative prompt engineering over often underspecified prompts. This paper introduces Maestro, a novel self-evolving image generation system that enables T2I models to autonomously self-improve generated images through iterative evolution of prompts, using only an initial prompt. Maestro incorporates two key innovations: 1) self-critique, where specialized multimodal LLM (MLLM) agents act as 'critics' to identify weaknesses in generated images, correct for under-specification, and provide interpretable edit signals, which are then integrated by a 'verifier' agent while preserving user intent; and 2) self-evolution, utilizing MLLM-as-a-judge for head-to-head comparisons between iteratively generated images, eschewing problematic images, and evolving creative prompt candidates that align with user intents. Extensive experiments on complex T2I tasks using black-box models demonstrate that Maestro significantly improves image quality over initial prompts and state-of-the-art automated methods, with effectiveness scaling with more advanced MLLM components. This work presents a robust, interpretable, and effective pathway towards self-improving T2I generation.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは、創造的な潜在能力を提供する一方で、人間の介入に非常に依存しており、しばしば手動、反復的なプロンプト・エンジニアリングを必要とする重要なユーザビリティの課題を呈している。
本稿では、初期プロンプトのみを用いて、プロンプトの反復的進化を通じて、T2Iモデルが生成した画像を自律的に自己改善することのできる、新しい自己進化型画像生成システムであるMaestroを紹介する。
Maestroは2つの重要なイノベーションを取り入れている。
1) 特殊なマルチモーダルLDM(MLLM)エージェントが生成画像の弱点を識別する「批判」として機能し、不特定性を補正し、解釈可能な編集信号を提供し、ユーザ意図を保ちながら「検証者」エージェントによって統合される自己批判。
2)MLLM-as-a-judgeを用いて,反復的に生成した画像の頭と頭の比較を行い,問題のある画像を抽出し,ユーザの意図に沿った創造的なプロンプト候補を進化させる。
ブラックボックスモデルを用いた複雑なT2Iタスクの広範な実験により、Maestroは初期のプロンプトや最先端の自動化手法よりも画像品質を大幅に改善し、より高度なMLLMコンポーネントによる効率のスケーリングを実現している。
この研究は、自己改善性T2I生成への堅牢で解釈可能で効果的な経路を示す。
関連論文リスト
- AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models [58.85362281293525]
本稿では、アクション中心のプロンプトから画像を生成する際のT2Iモデルの性能を評価するためのベンチマークであるAcT2Iを紹介する。
我々は、先行するT2IモデルがAcT2Iにうまく対応していないことを実験的に検証した。
我々は,この制限に対処するために,大規模言語モデルを用いた訓練不要の知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2025-09-19T16:41:39Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [149.96612254604986]
PRISMは人間の解釈可能なプロンプトを自動生成するアルゴリズムである。
大規模言語モデル(LLM)のジェイルブレイクにインスパイアされたPRISMは、LLMのコンテキスト内学習能力を活用して、候補のプロンプト分布を反復的に洗練する。
本実験は,複数のT2Iモデルのオブジェクト,スタイル,画像の正確なプロンプトを生成する上で,PRISMの有効性と有効性を示すものである。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation [46.085482021301516]
市販のMLLMとT2Iモデルを連携させてマルチモーダル対話システムを構築するためのDialogGenを提案する。
描画プロンプトアライメント、注意深いトレーニングデータキュレーション、エラー修正で構成されている。
ダイアログジェネレーションとユーザスタディに関する実験は、他の最先端モデルと比較してダイアログジェネレーションの有効性を実証している。
論文 参考訳(メタデータ) (2024-03-13T18:00:01Z) - Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation [115.63085345822175]
本稿では,GPT-4V(ision)を用いたマルチモーダル反復自己修正システムであるIdean to Image'を紹介し,画像の自動設計と生成を行う。
大規模マルチモーダルモデル(LMM)に基づくシステムでは,類似のマルチモーダル自己抑止能力が得られるかを検討する。
論文 参考訳(メタデータ) (2023-10-12T17:34:20Z) - Mini-DALLE3: Interactive Text to Image by Prompting Large Language
Models [71.49054220807983]
一般的な制限は、自然言語記述を用いた安定拡散のようなT2Iモデルとの効果的な通信に持続する。
最近リリースされたDALLE3に触発されて、人間の意図を一致させ、新しいタスク、インタラクティブテキスト・トゥ・イメージ(iT2I)を導入すべく、既存のT2Iシステムを再考した。
我々は,iT2I の LLM を補助的手法と既製の T2I モデルで拡張する簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T16:53:40Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。