論文の概要: IMAGAgent: Orchestrating Multi-Turn Image Editing via Constraint-Aware Planning and Reflection
- arxiv url: http://arxiv.org/abs/2603.29602v1
- Date: Thu, 12 Feb 2026 02:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.149194
- Title: IMAGAgent: Orchestrating Multi-Turn Image Editing via Constraint-Aware Planning and Reflection
- Title(参考訳): IMAGAgent:制約を考慮した計画とリフレクションによるマルチターン画像編集のオーケストレーション
- Authors: Fei Shen, Chengyu Xie, Lihong Wang, Zhanyi Zhang, Xin Jiang, Xiaoyu Du, Jinhui Tang,
- Abstract要約: IMAGAgentは、"plan-execute-reflect"クローズドループメカニズムに基づいたマルチターン画像編集エージェントフレームワークである。
命令解析、ツールスケジューリング、および統一パイプライン内の適応補正の深いシナジーを実現する。
構築した textbfMTEditBench と MagicBrush データセットによる実験により,IMAGAgent が既存の手法よりもはるかに優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 40.21337735524356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multi-turn image editing paradigms are often confined to isolated single-step execution. Due to a lack of context-awareness and closed-loop feedback mechanisms, they are prone to error accumulation and semantic drift during multi-turn interactions, ultimately resulting in severe structural distortion of the generated images. For that, we propose \textbf{IMAGAgent}, a multi-turn image editing agent framework based on a "plan-execute-reflect" closed-loop mechanism that achieves deep synergy among instruction parsing, tool scheduling, and adaptive correction within a unified pipeline. Specifically, we first present a constraint-aware planning module that leverages a vision-language model (VLM) to precisely decompose complex natural language instructions into a series of executable sub-tasks, governed by target singularity, semantic atomicity, and visual perceptibility. Then, the tool-chain orchestration module dynamically constructs execution paths based on the current image, the current sub-task, and the historical context, enabling adaptive scheduling and collaborative operation among heterogeneous operation models covering image retrieval, segmentation, detection, and editing. Finally, we devise a multi-expert collaborative reflection mechanism where a central large language model (LLM) receives the image to be edited and synthesizes VLM critiques into holistic feedback, simultaneously triggering fine-grained self-correction and recording feedback outcomes to optimize future decisions. Extensive experiments on our constructed \textbf{MTEditBench} and the MagicBrush dataset demonstrate that IMAGAgent achieves performance significantly superior to existing methods in terms of instruction consistency, editing precision, and overall quality. The code is available at https://github.com/hackermmzz/IMAGAgent.git.
- Abstract(参考訳): 既存のマルチターン画像編集パラダイムは、孤立した単一ステップの実行に制限されることが多い。
コンテキスト認識と閉ループフィードバック機構が欠如しているため、マルチターン相互作用中にエラーの蓄積とセマンティックドリフトが生じやすいため、最終的に生成した画像の重大な構造的歪みが生じる。
そこで我々は, 命令解析, ツールスケジューリング, 適応補正の深い相乗効果を実現する, "plan-execute-reflect" クローズドループ機構に基づくマルチターン画像編集エージェントフレームワークである \textbf{IMAGAgent} を提案する。
具体的には、まず、視覚言語モデル(VLM)を利用して、複雑な自然言語命令をターゲット特異性、セマンティックアトミック性、視覚的知覚性によって制御された一連の実行可能なサブタスクに正確に分解する制約対応計画モジュールを提案する。
そして、ツールチェーンオーケストレーションモジュールは、現在の画像、現在のサブタスク、履歴コンテキストに基づいて実行パスを動的に構築し、画像検索、セグメンテーション、検出、編集を含む異種操作モデル間の適応的なスケジューリングおよび協調操作を可能にする。
最後に、中央の大規模言語モデル(LLM)が編集対象の画像を受信し、VLM批評を総合的なフィードバックに合成し、同時に微粒な自己補正とフィードバック結果の記録をトリガーし、将来の意思決定を最適化するマルチエキスパート協調反射機構を考案する。
構築した \textbf{MTEditBench} と MagicBrush データセットの大規模な実験により、IMAGAgent は命令整合性、編集精度、全体的な品質において、既存の手法よりもはるかに優れた性能を実現していることが示された。
コードはhttps://github.com/hackermmzz/IMAGAgent.gitで公開されている。
関連論文リスト
- ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning [20.61925053714293]
画像編集システムは複雑な、間接的な、多段階のユーザー命令に悩まされることが多い。
本稿では,画像編集のためのマルチエージェントフレームワークであるImageEdit-R1を提案する。
本手法は,画像編集を逐次意思決定問題として扱い,動的かつコンテキスト対応な編集戦略を実現する。
論文 参考訳(メタデータ) (2026-03-09T07:50:14Z) - I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing [59.434028565445885]
I2Eは、画像編集を構造化された環境内の実行可能な相互作用プロセスとして再考する、新しい「分解・テーマ・アクション」パラダイムである。
I2EはDecomposerを使用して、非構造化画像を個別に操作可能なオブジェクト層に変換し、複雑な命令を解析するために、物理を意識したVision-Language-Action Agentを導入する。
I2Eは、複雑な構成命令の処理、物理的妥当性の維持、マルチターン編集安定性の確保において、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2026-01-07T09:29:57Z) - MIRA: Multimodal Iterative Reasoning Agent for Image Editing [48.41212094929379]
本稿では,MIRA(Multimodal Iterative Reasoning Agent)を提案する。
単一のプロンプトや静的プランを発行する代わりに、MIRAは、視覚的なフィードバックを使用して、その決定を行うために、段階的にアトミックな編集命令を予測する。
われわれの150Kマルチモーダルツール使用データセットであるMIRA-Editingと2段階のSFT + GRPOトレーニングパイプラインを組み合わせることで、MIRAは複雑な編集命令に対して推論と編集を行うことができる。
論文 参考訳(メタデータ) (2025-11-26T06:13:32Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - Does the Manipulation Process Matter? RITA: Reasoning Composite Image Manipulations via Reversely-Ordered Incremental-Transition Autoregression [13.933194190556714]
我々は、条件付きシーケンス予測タスクとして画像操作のローカライゼーションを再構成し、RITAフレームワークを提案する。
RITAは、各ステップの予測を次のステップの条件として、操作された領域を順番に階層的に予測する。
トレーニングと評価を可能にするため,マルチステップ操作データを合成し,新しいベンチマークHSIMを構築する。
論文 参考訳(メタデータ) (2025-09-24T11:25:44Z) - Marmot: Object-Level Self-Correction via Multi-Agent Reasoning [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を活用する、新しくて一般化可能なフレームワークである。
Marmotは、画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。