論文の概要: An LLM-LVLM Driven Agent for Iterative and Fine-Grained Image Editing
- arxiv url: http://arxiv.org/abs/2508.17435v1
- Date: Sun, 24 Aug 2025 16:28:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.521839
- Title: An LLM-LVLM Driven Agent for Iterative and Fine-Grained Image Editing
- Title(参考訳): LLM-LVLM-Driven Agent for Iterative and Fine-Grained Image Editing
- Authors: Zihan Liang, Jiahao Sun, Haoran Ma,
- Abstract要約: RefineEdit-Agentは、複雑で反復的でコンテキスト対応の画像編集のための、新しい、トレーニング不要なインテリジェントエージェントフレームワークである。
我々のフレームワークは、LVI駆動のインストラクションとシーン理解モジュール、多レベル編集プランナー、反復画像編集モジュール、LVLM駆動のフィードバックと評価ループから構成されている。
- 参考スコア(独自算出の注目度): 5.192553173010677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable capabilities of text-to-image (T2I) generation models, real-world applications often demand fine-grained, iterative image editing that existing methods struggle to provide. Key challenges include granular instruction understanding, robust context preservation during modifications, and the lack of intelligent feedback mechanisms for iterative refinement. This paper introduces RefineEdit-Agent, a novel, training-free intelligent agent framework designed to address these limitations by enabling complex, iterative, and context-aware image editing. RefineEdit-Agent leverages the powerful planning capabilities of Large Language Models (LLMs) and the advanced visual understanding and evaluation prowess of Vision-Language Large Models (LVLMs) within a closed-loop system. Our framework comprises an LVLM-driven instruction parser and scene understanding module, a multi-level LLM-driven editing planner for goal decomposition, tool selection, and sequence generation, an iterative image editing module, and a crucial LVLM-driven feedback and evaluation loop. To rigorously evaluate RefineEdit-Agent, we propose LongBench-T2I-Edit, a new benchmark featuring 500 initial images with complex, multi-turn editing instructions across nine visual dimensions. Extensive experiments demonstrate that RefineEdit-Agent significantly outperforms state-of-the-art baselines, achieving an average score of 3.67 on LongBench-T2I-Edit, compared to 2.29 for Direct Re-Prompting, 2.91 for InstructPix2Pix, 3.16 for GLIGEN-based Edit, and 3.39 for ControlNet-XL. Ablation studies, human evaluations, and analyses of iterative refinement, backbone choices, tool usage, and robustness to instruction complexity further validate the efficacy of our agentic design in delivering superior edit fidelity and context preservation.
- Abstract(参考訳): T2I(text-to-image)生成モデルの驚くべき機能にもかかわらず、現実世界のアプリケーションは、既存のメソッドが提供に苦慮している、細粒で反復的な画像編集を必要とすることが多い。
主な課題は、きめ細かい指示理解、修正中の堅牢なコンテキスト保存、反復的改善のための知的フィードバック機構の欠如である。
RefineEdit-Agentは、複雑な、反復的で、コンテキスト対応の画像編集を可能にすることで、これらの制限に対処するために設計された、新しい、トレーニング不要なインテリジェントエージェントフレームワークである。
RefineEdit-Agentは、大規模言語モデル(LLM)の強力な計画能力と、閉ループシステム内の視覚言語大モデル(LVLM)の高度な視覚的理解と評価技術を活用する。
我々のフレームワークは、LVLM駆動の命令パーサとシーン理解モジュール、ゴール分解のための多レベルLLM駆動の編集プランナ、ツールの選択とシーケンス生成、反復的な画像編集モジュール、LVLM駆動のフィードバックと評価ループからなる。
RefineEdit-Agentを厳格に評価するために、LongBench-T2I-Editを提案する。
RefineEdit-Agentは、LongBench-T2I-Editの平均スコアが2.29、InstructPix2Pixが2.91、GLIGENベースのEditが3.16、ControlNet-XLが3.39であるのに対し、RefineEdit-Agentは最先端のベースラインを大きく上回っている。
編集精度と文脈保存性に優れたエージェント設計の有効性を更に検証するため, アブレーション研究, 人的評価, 反復的洗練, バックボーン選択, ツール使用量, 堅牢性の検証を行った。
関連論文リスト
- LumiGen: An LVLM-Enhanced Iterative Framework for Fine-Grained Text-to-Image Generation [1.124958340749622]
視覚言語モデル (LVLM) は、モーダルな理解と指示の追従において強力な能力を示した。
LumiGenは、T2Iモデルの性能を高めるために設計された新しいLVLM拡張反復フレームワークである。
LumiGenは平均スコア3.08で、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-08-05T20:53:43Z) - UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying [64.5307229755533]
画像編集機能を備えた統合VLMを実現するために,UniEdit-Iという新しいトレーニングフリーフレームワークを導入する。
我々は最新のBLIP3-oに基づいて提案手法を実装し,GEdit-BenchベンチマークでSOTA(State-of-the-art)性能を達成した。
論文 参考訳(メタデータ) (2025-08-05T06:42:09Z) - Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。
現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。
我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。
提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文 参考訳(メタデータ) (2024-12-08T22:29:56Z) - ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。