論文の概要: Talk2Image: A Multi-Agent System for Multi-Turn Image Generation and Editing
- arxiv url: http://arxiv.org/abs/2508.06916v1
- Date: Sat, 09 Aug 2025 10:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.613357
- Title: Talk2Image: A Multi-Agent System for Multi-Turn Image Generation and Editing
- Title(参考訳): Talk2Image:マルチスレッド画像生成と編集のためのマルチエージェントシステム
- Authors: Shichao Ma, Yunhe Guo, Jiahao Su, Qihe Huang, Zhengyang Zhou, Yang Wang,
- Abstract要約: Talk2Imageは,対話型画像生成と編集を行うマルチエージェントシステムである。
提案手法は,対話履歴からの意図的解析,タスクの分解,特殊エージェント間の協調実行を統合した。
Talk2Imageは、コントロール可能性、コヒーレンス、ユーザの満足度において、既存のベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 12.338828546963022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation tasks have driven remarkable advances in diverse media applications, yet most focus on single-turn scenarios and struggle with iterative, multi-turn creative tasks. Recent dialogue-based systems attempt to bridge this gap, but their single-agent, sequential paradigm often causes intention drift and incoherent edits. To address these limitations, we present Talk2Image, a novel multi-agent system for interactive image generation and editing in multi-turn dialogue scenarios. Our approach integrates three key components: intention parsing from dialogue history, task decomposition and collaborative execution across specialized agents, and feedback-driven refinement based on a multi-view evaluation mechanism. Talk2Image enables step-by-step alignment with user intention and consistent image editing. Experiments demonstrate that Talk2Image outperforms existing baselines in controllability, coherence, and user satisfaction across iterative image generation and editing tasks.
- Abstract(参考訳): テキストから画像への生成タスクは、多様なメディアアプリケーションにおいて顕著な進歩を導いてきたが、殆どはシングルターンのシナリオに焦点をあて、反復的でマルチターンのクリエイティブなタスクに苦労している。
最近の対話ベースのシステムは、このギャップを埋めようとしているが、その単一エージェントでシーケンシャルなパラダイムは、しばしば意図的なドリフトと一貫性のない編集を引き起こす。
これらの制約に対処するため,マルチターン対話シナリオにおける対話型画像生成と編集のための新しいマルチエージェントシステムTalk2Imageを提案する。
提案手法は,対話履歴からの意図解析,タスクの分解と特殊エージェント間の協調実行,多視点評価機構に基づくフィードバック駆動の洗練という3つの重要な要素を統合した。
Talk2Imageは、ユーザの意図と一貫した画像編集とステップバイステップのアライメントを可能にする。
実験により、Talk2Imageは、反復的な画像生成および編集タスクにおいて、コントロール容易性、コヒーレンス、ユーザの満足度において、既存のベースラインを上回っていることが示された。
関連論文リスト
- Twin Co-Adaptive Dialogue for Progressive Image Generation [26.175824150331987]
我々は、画像生成を段階的に洗練するために、同期された共適応対話を利用するフレームワークであるTwin-Coを提案する。
実験によると、Twin-Coは試行錯誤を減らすことによってユーザーエクスペリエンスを向上させるだけでなく、生成された画像の品質も向上する。
論文 参考訳(メタデータ) (2025-04-21T05:37:07Z) - Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation [41.990464968024845]
インタラクティブな画像を生成するためのAutoStudioという,トレーニング不要なマルチエージェントフレームワークを提案する。
AutoStudioは、対話を処理するために大きな言語モデル(LLM)に基づく3つのエージェントと、高品質な画像を生成するための安定した拡散(SD)ベースのエージェントを使用している。
パブリックなCMIGBenchベンチマークと人的評価の実験は、AutoStudioが複数のターンにわたる複数オブジェクトの一貫性を良好に維持していることを示している。
論文 参考訳(メタデータ) (2024-06-03T14:51:24Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。