論文の概要: EditThinker: Unlocking Iterative Reasoning for Any Image Editor
- arxiv url: http://arxiv.org/abs/2512.05965v1
- Date: Fri, 05 Dec 2025 18:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.157754
- Title: EditThinker: Unlocking Iterative Reasoning for Any Image Editor
- Title(参考訳): EditThinker:任意のイメージエディタの反復推論をアンロック
- Authors: Hongyu Li, Manyuan Zhang, Dian Zheng, Ziyu Guo, Yimeng Jia, Kaituo Feng, Hao Yu, Yexin Liu, Yan Feng, Peng Pei, Xunliang Cai, Linjiang Huang, Hongsheng Li, Si Liu,
- Abstract要約: 編集中に「考える」ための熟考的な編集フレームワークを提案する。
このフレームワークの推論エンジンとして機能するために、単一のMLLM、EditThinkerをトレーニングします。
我々は、強化学習を用いて、EditThinkerの思考をその編集と整合させ、よりターゲットを絞った命令改善を生成する。
- 参考スコア(独自算出の注目度): 72.28251670314451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based image editing has emerged as a prominent research area, which, benefiting from image generation foundation models, have achieved high aesthetic quality, making instruction-following capability the primary challenge. Existing approaches improve instruction adherence via supervised or reinforcement learning, yet single-turn success rates remain limited due to inherent stochasticity and a lack of deliberation. In this work, we propose a deliberative editing framework to 'think' while they edit, which simulates the human cognitive loop by iteratively executing a Think-while-Edit cycle: Critiquing results and Refining instructions , followed by Repeating the generation until satisfactory. Specifically, we train a single MLLM, EditThinker, to act as the reasoning engine of this framework, which jointly produce the critique score, reasoning process, and refined instructions. We employ reinforcement learning to align the EditThinker's thinking with its editing, thereby generating more targeted instruction improvements. Extensive experiments on four benchmarks demonstrate that our approach significantly improves the instruction-following capability of any image editing model by a large margin. We will release our data construction framework, datasets, and models to benefit the community.
- Abstract(参考訳): 画像生成基盤モデルの利点を生かした画像編集が目覚ましい研究領域として登場し, 高い美的品質を達成し, 指導追従能力を第一の課題にしている。
既存のアプローチでは教師付きあるいは強化学習による指導の順守が向上しているが、一ターンの成功率は本質的に確率性と熟考の欠如のために制限されている。
本研究は,思考時編集サイクルを反復的に実行することで,人間の認知ループをシミュレートする「思考」を行うための,熟考的編集フレームワークを提案する。
具体的には、単一のMLLMであるEditThinkerをトレーニングして、このフレームワークの推論エンジンとして動作させ、批判スコア、推論プロセス、洗練された命令を共同で生成する。
我々は、強化学習を用いて、EditThinkerの思考をその編集と整合させ、よりターゲットを絞った命令改善を生成する。
4つのベンチマークによる大規模な実験により、我々の手法は画像編集モデルの命令追従能力を大きなマージンで大幅に改善することを示した。
コミュニティに利益をもたらすために、データ構築フレームワーク、データセット、モデルをリリースします。
関連論文リスト
- ReasonEdit: Towards Reasoning-Enhanced Image Editing Models [60.902953259781675]
一般的なアーキテクチャ設計では、多モード大言語モデル(MLLM)エンコーダと拡散デコーダを結合する。
MLLMの推論能力のアンロックは、編集モデルのバウンダリを押し上げることができることを示す。
提案フレームワークは,思考・編集・リフレクションループにおける画像編集を可能にする。
論文 参考訳(メタデータ) (2025-11-27T17:02:48Z) - Training-Free Reward-Guided Image Editing via Trajectory Optimal Control [55.64204232819136]
トレーニング不要な報酬誘導画像編集のための新しいフレームワークを提案する。
提案手法は,既存のインバージョンベースのトレーニングフリーベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-09-30T06:34:37Z) - EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling [71.8265422228785]
強化学習(RL)は有望な解決策を提供するが、画像編集におけるその採用は、高忠実で効率的な報酬信号の欠如によって妨げられている。
我々は、最先端の特殊報酬モデルの開発を中心に、この障壁を克服するための包括的な方法論を提案する。
論文 参考訳(メタデータ) (2025-09-28T14:28:24Z) - SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing [25.8179737362091]
既存のデータセットは通常、さまざまな自動化手法を使って構築され、ノイズの多い監視信号に繋がる。
近年の取り組みは、高品質な編集画像の生成、認識タスクの事前訓練、視覚言語モデル(VLM)の導入による編集モデルの改善を試みているが、この根本的な問題を解決するには至らなかった。
本稿では,与えられた画像対に対してより効率的な編集命令を構築することで,新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-05T05:19:40Z) - SPIE: Semantic and Structural Post-Training of Image Editing Diffusion Models with AI feedback [28.807572302899004]
SPIEは、命令ベースの画像編集拡散モデルの意味的および構造的後学習のための新しいアプローチである。
広範な人間のアノテーションに頼ることなく、拡散モデルと人間の嗜好を一致させるオンライン強化学習フレームワークを導入する。
実験結果から,SPIEは複雑なシーンで,わずか10ステップで複雑な編集を行うことができることがわかった。
論文 参考訳(メタデータ) (2025-04-17T10:46:39Z) - UIP2P: Unsupervised Instruction-based Image Editing via Edit Reversibility Constraint [87.20985852686785]
本研究では,教師なし指導に基づく画像編集手法を提案する。
本稿では,編集可逆性制約 (ERC) と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
これにより、地道に編集されたイメージの必要性を回避し、実際のイメージキャプチャペアまたはイメージキャプチャインストラクショントリプルからなるデータセットで、初めてトレーニングをアンロックすることが可能になります。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。