論文の概要: REASONEDIT: Towards Reasoning-Enhanced Image Editing Models
- arxiv url: http://arxiv.org/abs/2511.22625v1
- Date: Thu, 27 Nov 2025 17:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.658363
- Title: REASONEDIT: Towards Reasoning-Enhanced Image Editing Models
- Title(参考訳): REASONEDIT:Reasoning-Enhanced Image Editing Modelsを目指して
- Authors: Fukun Yin, Shiyu Liu, Yucheng Han, Zhibo Wang, Peng Xing, Rui Wang, Wei Cheng, Yingming Wang, Aojie Li, Zixin Yin, Pengtao Chen, Xiangyu Zhang, Daxin Jiang, Xianfang Zeng, Gang Yu,
- Abstract要約: 一般的なアーキテクチャ設計では、多モード大言語モデル(MLLM)エンコーダと拡散デコーダを結合する。
MLLMの推論能力のアンロックは、編集モデルのバウンダリを押し上げることができることを示す。
提案フレームワークは,思考・編集・リフレクションループにおける画像編集を可能にする。
- 参考スコア(独自算出の注目度): 60.902953259781675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in image editing models have shown remarkable progress. A common architectural design couples a multimodal large language model (MLLM) encoder with a diffusion decoder, as seen in systems such as Step1X-Edit and Qwen-Image-Edit, where the MLLM encodes both the reference image and the instruction but remains frozen during training. In this work, we demonstrate that unlocking the reasoning capabilities of MLLM can further push the boundaries of editing models. Specifically, we explore two reasoning mechanisms, thinking and reflection, which enhance instruction understanding and editing accuracy. Based on that, our proposed framework enables image editing in a thinking-editing-reflection loop: the thinking mechanism leverages the world knowledge of MLLM to interpret abstract instructions, while the reflection reviews editing results, automatically corrects unintended manipulations, and identifies the stopping round. Extensive experiments demonstrate that our reasoning approach achieves significant performance gains, with improvements of ImgEdit (+4.3%), GEdit (+4.7%), and Kris (+8.2%) when initializing our DiT from the Step1X-Edit (ReasonEdit-S), and also outperforms previous open-source methods on both GEdit and Kris when integrated with Qwen-Image-Edit (ReasonEdit-Q).
- Abstract(参考訳): 画像編集モデルの最近の進歩は顕著な進歩を見せている。
一般的なアーキテクチャ設計では、Multimodal large language model (MLLM) エンコーダと拡散デコーダを結合し、Step1X-EditやQwen-Image-Editのようなシステムでは、MLLMは参照画像と命令の両方をエンコードするが、訓練中は凍結する。
本研究では,MLLMの推論能力を解き放つことで,編集モデルの境界をさらに推し進めることができることを示す。
具体的には,2つの推論機構,思考と反射について検討し,学習の理解と編集の精度を高める。
思考メカニズムはMLLMの世界の知識を活用して抽象的な命令を解釈する一方で、リフレクションレビュー編集の結果は意図しない操作を自動的に修正し、停止ラウンドを識別する。
ImgEdit(+4.3%)、GEdit(+4.7%)、Kris(+8.2%)がStep1X-Edit(ReasonEdit-S)から初期化され、またQwen-Image-Edit(ReasonEdit-Q)と統合された場合、GEditとKrisの両方で従来のオープンソースメソッドよりもパフォーマンスが向上した。
関連論文リスト
- An LLM-LVLM Driven Agent for Iterative and Fine-Grained Image Editing [5.192553173010677]
RefineEdit-Agentは、複雑で反復的でコンテキスト対応の画像編集のための、新しい、トレーニング不要なインテリジェントエージェントフレームワークである。
我々のフレームワークは、LVI駆動のインストラクションとシーン理解モジュール、多レベル編集プランナー、反復画像編集モジュール、LVLM駆動のフィードバックと評価ループから構成されている。
論文 参考訳(メタデータ) (2025-08-24T16:28:18Z) - MIND-Edit: MLLM Insight-Driven Editing via Language-Vision Projection [13.467269066605452]
MLLMと事前学習拡散モデルを組み合わせたエンドツーエンド画像編集フレームワークであるMIND-Editを提案する。
MIND-Editは,(1)MLLMからの意味的推論に基づく曖昧なユーザ指示を明確化するテキスト命令最適化戦略,(2)MLLMの本質的な視覚的理解能力を明示的に活用して編集意図を推測するMLLM洞察駆動型編集戦略,の2つの補完戦略を導入している。
大規模な実験により、MIND-Editは、特に複雑で困難なシナリオにおいて、定量的メトリクスと視覚的品質の両方において、最先端の画像編集方法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-25T13:54:31Z) - FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。