論文の概要: ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.08059v1
- Date: Mon, 09 Mar 2026 07:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.633291
- Title: ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning
- Title(参考訳): ImageEdit-R1:強化学習によるマルチエージェント画像編集の強化
- Authors: Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui,
- Abstract要約: 画像編集システムは複雑な、間接的な、多段階のユーザー命令に悩まされることが多い。
本稿では,画像編集のためのマルチエージェントフレームワークであるImageEdit-R1を提案する。
本手法は,画像編集を逐次意思決定問題として扱い,動的かつコンテキスト対応な編集戦略を実現する。
- 参考スコア(独自算出の注目度): 20.61925053714293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of commercial multi-modal models, image editing has garnered significant attention due to its widespread applicability in daily life. Despite impressive progress, existing image editing systems, particularly closed-source or proprietary models, often struggle with complex, indirect, or multi-step user instructions. These limitations hinder their ability to perform nuanced, context-aware edits that align with human intent. In this work, we propose ImageEdit-R1, a multi-agent framework for intelligent image editing that leverages reinforcement learning to coordinate high-level decision-making across a set of specialized, pretrained vision-language and generative agents. Each agent is responsible for distinct capabilities--such as understanding user intent, identifying regions of interest, selecting appropriate editing actions, and synthesizing visual content--while reinforcement learning governs their collaboration to ensure coherent and goal-directed behavior. Unlike existing approaches that rely on monolithic models or hand-crafted pipelines, our method treats image editing as a sequential decision-making problem, enabling dynamic and context-aware editing strategies. Experimental results demonstrate that ImageEdit-R1 consistently outperforms both individual closed-source diffusion models and alternative multi-agent framework baselines across multiple image editing datasets.
- Abstract(参考訳): 商用マルチモーダルモデルの急速な進歩により、画像編集は日常生活に広く適用可能なため、大きな注目を集めている。
目覚ましい進歩にもかかわらず、既存の画像編集システム、特にクローズドソースまたはプロプライエタリなモデルでは、複雑な、間接的な、あるいはマルチステップのユーザー指示に悩まされることが多い。
これらの制限は、人間の意図に沿ったニュアンスでコンテキスト対応の編集を行う能力を妨げている。
本研究では,画像編集のためのマルチエージェントフレームワークであるImageEdit-R1を提案する。
各エージェントは、ユーザの意図を理解し、関心領域を識別し、適切な編集動作を選択し、視覚コンテンツを合成するなど、独自の能力を持つ。
モノリシックなモデルや手作りのパイプラインに依存する既存のアプローチとは異なり、画像編集はシーケンシャルな意思決定問題として扱い、動的かつコンテキスト対応の編集戦略を可能にする。
実験結果から、ImageEdit-R1は、個々のクローズドソース拡散モデルと、複数の画像編集データセットにまたがる代替のマルチエージェントフレームワークベースラインの両方を一貫して上回っていることが示された。
関連論文リスト
- Instruction-based Image Editing with Planning, Reasoning, and Generation [52.0364486403062]
以前の作業では、大きな言語モデル、オブジェクトセグメンテーションモデル、このタスクのためのモデル編集の連鎖を利用していた。
我々は、命令ベースの画像編集モデルにインテリジェントな能力を提供する新しいマルチモーダリティモデルにより、理解と生成をブリッジすることを目指している。
本手法は,複雑な実世界の画像に対して,競合する編集能力を有する。
論文 参考訳(メタデータ) (2026-02-26T04:56:02Z) - TalkPhoto: A Versatile Training-Free Conversational Assistant for Intelligent Image Editing [21.708181904910177]
MLLM(Multimodal Large Language Models)は、命令と画像間の情報交換を促進する。
これらのフレームワークは、複数の編集タスクを処理するためにモデルをトレーニングするために、しばしばマルチインストラクションデータセットを構築する。
本研究では,対話型インタラクションによる正確な画像操作を容易にする,多目的なトレーニング不要な画像編集フレームワークであるTalkPhotoを紹介する。
論文 参考訳(メタデータ) (2026-01-05T09:00:32Z) - MIRA: Multimodal Iterative Reasoning Agent for Image Editing [48.41212094929379]
本稿では,MIRA(Multimodal Iterative Reasoning Agent)を提案する。
単一のプロンプトや静的プランを発行する代わりに、MIRAは、視覚的なフィードバックを使用して、その決定を行うために、段階的にアトミックな編集命令を予測する。
われわれの150Kマルチモーダルツール使用データセットであるMIRA-Editingと2段階のSFT + GRPOトレーニングパイプラインを組み合わせることで、MIRAは複雑な編集命令に対して推論と編集を行うことができる。
論文 参考訳(メタデータ) (2025-11-26T06:13:32Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。