論文の概要: T2I-Copilot: A Training-Free Multi-Agent Text-to-Image System for Enhanced Prompt Interpretation and Interactive Generation
- arxiv url: http://arxiv.org/abs/2507.20536v2
- Date: Tue, 29 Jul 2025 06:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.857489
- Title: T2I-Copilot: A Training-Free Multi-Agent Text-to-Image System for Enhanced Prompt Interpretation and Interactive Generation
- Title(参考訳): T2I-Copilot: プロンプト解釈と対話型生成のための訓練不要なマルチエージェントテキスト・ツー・イメージシステム
- Authors: Chieh-Yun Chen, Min Shi, Gong Zhang, Humphrey Shi,
- Abstract要約: T2I-Copilotは訓練なしのマルチエージェントシステムで、迅速なフレーズ付け、モデル選択、反復的な洗練を自動化する。
GenAI-Bench では、オープンソースの生成モデルを使用して、T2I-Copilot は商用モデル RecraftV3 と Imagen 3 に匹敵する VQA スコアを獲得し、FLUX1.1-pro をわずか16.59%で6.17%上回り、FLUX.1-dev と SD 3.5 を 9.11% と 6.36% で上回っている。
- 参考スコア(独自算出の注目度): 33.57770029533121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image (T2I) generative models have revolutionized content creation but remain highly sensitive to prompt phrasing, often requiring users to repeatedly refine prompts multiple times without clear feedback. While techniques such as automatic prompt engineering, controlled text embeddings, denoising, and multi-turn generation mitigate these issues, they offer limited controllability, or often necessitate additional training, restricting the generalization abilities. Thus, we introduce T2I-Copilot, a training-free multi-agent system that leverages collaboration between (Multimodal) Large Language Models to automate prompt phrasing, model selection, and iterative refinement. This approach significantly simplifies prompt engineering while enhancing generation quality and text-image alignment compared to direct generation. Specifically, T2I-Copilot consists of three agents: (1) Input Interpreter, which parses the input prompt, resolves ambiguities, and generates a standardized report; (2) Generation Engine, which selects the appropriate model from different types of T2I models and organizes visual and textual prompts to initiate generation; and (3) Quality Evaluator, which assesses aesthetic quality and text-image alignment, providing scores and feedback for potential regeneration. T2I-Copilot can operate fully autonomously while also supporting human-in-the-loop intervention for fine-grained control. On GenAI-Bench, using open-source generation models, T2I-Copilot achieves a VQA score comparable to commercial models RecraftV3 and Imagen 3, surpasses FLUX1.1-pro by 6.17% at only 16.59% of its cost, and outperforms FLUX.1-dev and SD 3.5 Large by 9.11% and 6.36%. Code will be released at: https://github.com/SHI-Labs/T2I-Copilot.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)生成モデルは、コンテンツの創造に革命をもたらしたが、フレーズの表現に非常に敏感であり、ユーザーは明確なフィードバックなしに何度もプロンプトを洗練させなければならない。
自動プロンプトエンジニアリング、制御されたテキスト埋め込み、デノイング、マルチターン生成といった技術はこれらの問題を緩和するが、制限された制御性を提供するか、しばしば追加の訓練を必要とし、一般化能力を制限する。
そこで本研究では,T2I-Copilotについて紹介する。T2I-Copilotは,(Multimodal)大規模言語モデル間の協調を利用して,迅速なフレーズ表現,モデル選択,反復的洗練を自動化する学習自由なマルチエージェントシステムである。
このアプローチは、直接生成と比較して生成品質とテキストイメージアライメントを高めながら、プロンプトエンジニアリングを著しく単純化する。
具体的には,(1)入力プロンプトを解析し,あいまいさを解消し,標準化されたレポートを生成する入力インタプリタ,(2)異なるタイプのT2Iモデルから適切なモデルを選択し,生成を開始するための視覚的およびテキスト的プロンプトを編成する生成エンジン,(3)美的品質とテキスト画像のアライメントを評価する品質評価器,および潜在的再生のためのスコアとフィードバックを提供する。
T2I-Copilotは完全に自律的に動作でき、細粒度制御のための人道介入もサポートしている。
GenAI-Bench では、オープンソースの生成モデルを使用して、T2I-Copilot は商用モデル RecraftV3 と Imagen 3 に匹敵する VQA スコアを獲得し、FLUX1.1-pro をわずか16.59%で6.17%上回り、FLUX.1-dev と SD 3.5 を 9.11% と 6.36% で上回っている。
コードは、https://github.com/SHI-Labs/T2I-Copilot.comでリリースされる。
関連論文リスト
- Multi-modal Knowledge Distillation-based Human Trajectory Forecasting [35.060041571520024]
歩行者の軌道予測は、自律運転や移動ロボットナビゲーションといった様々な用途において重要である。
このようなアプリケーションでは、カメラベースの知覚により、追加のモダリティ(人間のポーズ、テキスト)の抽出が可能になり、予測精度が向上する。
そこで本研究では,多モードの知識蒸留フレームワークを提案する。多モードの知識蒸留を訓練した教師モデルから,限られたモダリティを持つ学生モデルを蒸留する。
論文 参考訳(メタデータ) (2025-03-28T07:32:51Z) - X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation [7.61087111021017]
本稿では,Diffusion Transformer (DiT) モデルに様々なモダリティを理解する能力を備えた X2I フレームワークを提案する。
X2Iは,マルチモーダル理解能力を有しながら,1%未満の性能低下を示した。
論文 参考訳(メタデータ) (2025-03-08T09:07:45Z) - IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models [52.73820275861131]
テキスト・トゥ・イメージ(T2I)モデルは非常に進歩しており、プロンプト追従と画像生成における印象的な能力を示している。
FLUX.1やIdeogram2.0といった最近のモデルでは、様々な複雑なタスクにおいて例外的な性能を示している。
本研究は,T2Iモデルが汎用ユーザビリティに進化する過程における現状と今後の軌道に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-01-23T18:58:33Z) - ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting [18.002126814513417]
ChatGen-Evoは、モデルに不可欠な自動化スキルを徐々に装備する多段階進化戦略である。
ChatGen-Evoは様々なベースラインのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-26T07:31:12Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [149.96612254604986]
PRISMは人間の解釈可能なプロンプトを自動生成するアルゴリズムである。
大規模言語モデル(LLM)のジェイルブレイクにインスパイアされたPRISMは、LLMのコンテキスト内学習能力を活用して、候補のプロンプト分布を反復的に洗練する。
本実験は,複数のT2Iモデルのオブジェクト,スタイル,画像の正確なプロンプトを生成する上で,PRISMの有効性と有効性を示すものである。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。
現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。
本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。