論文の概要: Talk2Image: A Multi-Agent System for Multi-Turn Image Generation and Editing
- arxiv url: http://arxiv.org/abs/2508.06916v1
- Date: Sat, 09 Aug 2025 10:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.613357
- Title: Talk2Image: A Multi-Agent System for Multi-Turn Image Generation and Editing
- Title(参考訳): Talk2Image:マルチスレッド画像生成と編集のためのマルチエージェントシステム
- Authors: Shichao Ma, Yunhe Guo, Jiahao Su, Qihe Huang, Zhengyang Zhou, Yang Wang,
- Abstract要約: Talk2Imageは,対話型画像生成と編集を行うマルチエージェントシステムである。
提案手法は,対話履歴からの意図的解析,タスクの分解,特殊エージェント間の協調実行を統合した。
Talk2Imageは、コントロール可能性、コヒーレンス、ユーザの満足度において、既存のベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 12.338828546963022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generation tasks have driven remarkable advances in diverse media applications, yet most focus on single-turn scenarios and struggle with iterative, multi-turn creative tasks. Recent dialogue-based systems attempt to bridge this gap, but their single-agent, sequential paradigm often causes intention drift and incoherent edits. To address these limitations, we present Talk2Image, a novel multi-agent system for interactive image generation and editing in multi-turn dialogue scenarios. Our approach integrates three key components: intention parsing from dialogue history, task decomposition and collaborative execution across specialized agents, and feedback-driven refinement based on a multi-view evaluation mechanism. Talk2Image enables step-by-step alignment with user intention and consistent image editing. Experiments demonstrate that Talk2Image outperforms existing baselines in controllability, coherence, and user satisfaction across iterative image generation and editing tasks.
- Abstract(参考訳): テキストから画像への生成タスクは、多様なメディアアプリケーションにおいて顕著な進歩を導いてきたが、殆どはシングルターンのシナリオに焦点をあて、反復的でマルチターンのクリエイティブなタスクに苦労している。
最近の対話ベースのシステムは、このギャップを埋めようとしているが、その単一エージェントでシーケンシャルなパラダイムは、しばしば意図的なドリフトと一貫性のない編集を引き起こす。
これらの制約に対処するため,マルチターン対話シナリオにおける対話型画像生成と編集のための新しいマルチエージェントシステムTalk2Imageを提案する。
提案手法は,対話履歴からの意図解析,タスクの分解と特殊エージェント間の協調実行,多視点評価機構に基づくフィードバック駆動の洗練という3つの重要な要素を統合した。
Talk2Imageは、ユーザの意図と一貫した画像編集とステップバイステップのアライメントを可能にする。
実験により、Talk2Imageは、反復的な画像生成および編集タスクにおいて、コントロール容易性、コヒーレンス、ユーザの満足度において、既存のベースラインを上回っていることが示された。
関連論文リスト
- I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing [59.434028565445885]
I2Eは、画像編集を構造化された環境内の実行可能な相互作用プロセスとして再考する、新しい「分解・テーマ・アクション」パラダイムである。
I2EはDecomposerを使用して、非構造化画像を個別に操作可能なオブジェクト層に変換し、複雑な命令を解析するために、物理を意識したVision-Language-Action Agentを導入する。
I2Eは、複雑な構成命令の処理、物理的妥当性の維持、マルチターン編集安定性の確保において、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2026-01-07T09:29:57Z) - MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation [59.23161833385837]
音声対話理解・生成のための新しいマルチモーダルフレームワークMAViDを提案する。
本フレームワークは,ユーザのマルチモーダルクエリを正確に解釈し,鮮明かつコンテキスト的にコヒーレントなロングデュレーション対話を生成できる。
論文 参考訳(メタデータ) (2025-12-02T18:55:53Z) - ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation [49.01601313084479]
ImAgentは、推論、生成、自己評価を統合するトレーニングフリーの統一マルチモーダルエージェントである。
画像生成と編集タスクの実験は、ImAgentがバックボーンよりも一貫して改善していることを示している。
論文 参考訳(メタデータ) (2025-11-14T17:00:29Z) - Twin Co-Adaptive Dialogue for Progressive Image Generation [26.175824150331987]
我々は、画像生成を段階的に洗練するために、同期された共適応対話を利用するフレームワークであるTwin-Coを提案する。
実験によると、Twin-Coは試行錯誤を減らすことによってユーザーエクスペリエンスを向上させるだけでなく、生成された画像の品質も向上する。
論文 参考訳(メタデータ) (2025-04-21T05:37:07Z) - Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。
これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。
本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:22:42Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation [41.990464968024845]
インタラクティブな画像を生成するためのAutoStudioという,トレーニング不要なマルチエージェントフレームワークを提案する。
AutoStudioは、対話を処理するために大きな言語モデル(LLM)に基づく3つのエージェントと、高品質な画像を生成するための安定した拡散(SD)ベースのエージェントを使用している。
パブリックなCMIGBenchベンチマークと人的評価の実験は、AutoStudioが複数のターンにわたる複数オブジェクトの一貫性を良好に維持していることを示している。
論文 参考訳(メタデータ) (2024-06-03T14:51:24Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - On Task-Level Dialogue Composition of Generative Transformer Model [9.751234480029765]
本研究では,トランスフォーマー生成モデルにおけるヒューマン・ヒューマン・タスク指向対話の学習効果について検討した。
そこで本研究では,(1)人間と人間による単一タスク対話から学習のための複合タスク対話データを作成すること,(2)補助的損失を用いてエンコーダ表現を単一タスク対話に不変にすること,の2つの方法を提案する。
論文 参考訳(メタデータ) (2020-10-09T22:10:03Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。