論文の概要: Leveraging Verifier-Based Reinforcement Learning in Image Editing
- arxiv url: http://arxiv.org/abs/2604.27505v1
- Date: Thu, 30 Apr 2026 06:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.964449
- Title: Leveraging Verifier-Based Reinforcement Learning in Image Editing
- Title(参考訳): 画像編集における検証器による強化学習の活用
- Authors: Hanzhong Guo, Jie Wu, Jie Liu, Yu Gao, Zilyu Ye, Linxiao Yuan, Xionghui Wang, Yizhou Yu, Weilin Huang,
- Abstract要約: 本稿では,下流画像編集のための階層検証型推論報酬モデル(RRM)を構築するフレームワークであるEdit-R1を紹介する。
我々の実験は、編集固有の報酬モデルとして強力なVLMを超越していることを示した。
- 参考スコア(独自算出の注目度): 41.64251379221566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm for text-to-image generation, its application to image editing remains largely unexplored. A key bottleneck is the lack of a robust general reward model for all editing tasks. Existing edit reward models usually give overall scores without detailed checks, ignoring different instruction requirements and causing biased rewards. To address this, we argue that the key is to move from a simple scorer to a reasoning verifier. We introduce Edit-R1, a framework that builds a chain-of-thought (CoT) verifier-based reasoning reward model (RRM) and then leverages it for downstream image editing. The Edit-RRM breaks instructions into distinct principles, evaluates the edited image against each principle, and aggregates these checks into an interpretable, fine-grained reward. To build such an RRM, we first apply supervised fine-tuning (SFT) as a ``cold-start'' to generate CoT reward trajectories. Then, we introduce Group Contrastive Preference Optimization (GCPO), a reinforcement learning algorithm that leverages human pairwise preference data to reinforce our pointwise RRM. After building the RRM, we use GRPO to train editing models with this non-differentiable yet powerful reward model. Extensive experiments demonstrate that our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext, highlighting its effectiveness in enhancing image editing.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) はテキスト・画像生成において重要なパラダイムとなっているが、画像編集への応用は未解明のままである。
重要なボトルネックは、すべての編集タスクに対して堅牢な汎用報酬モデルがないことである。
既存の編集報酬モデルは通常、詳細なチェックなしで総合的なスコアを与え、異なる命令要求を無視し、バイアスのある報酬を引き起こす。
この問題に対処するために、鍵となるのは単純なスコアラーから推論検証器に移行することであると論じる。
本稿では,階層型検証器ベースの推論報酬モデル(RRM)を構築するフレームワークであるEdit-R1を紹介し,それを下流画像編集に活用する。
Edit-RRMは命令を異なる原則に分割し、各原則に対して編集された画像を評価し、これらのチェックを解釈可能できめ細かい報酬に集約する。
このようなRCMを構築するために、まず教師付き微調整(SFT)を 'cold-start'' として適用し、CoT報酬軌道を生成する。
次に、人間のペアワイズ選好データを利用して、ポイントワイズRTMを強化する強化学習アルゴリズムであるグループコントラスト選好最適化(GCPO)を紹介する。
RRMの構築後、GRPOを使用して、この非微分可能で強力な報酬モデルで編集モデルをトレーニングします。
拡張実験により,編集固有報酬モデルとしてSeed-1.5-VLやSeed-1.6-VLといった強力なVLMを超える結果が得られた。
さらに、Edit-R1はFLUX.1-kontextのような編集モデルに利益をもたらし、画像編集の強化の有効性を強調している。
関連論文リスト
- Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation [67.26349227500084]
現在の報酬モデルは、強化学習の時に批評家として機能し、しばしば幻覚に悩まされ、うるさいスコアを割り当てる。
我々は、忠実な画像生成と編集のための正確で信頼性の高いガイダンスを提供するために、堅牢な報酬モデルを開発する包括的フレームワークFIRMを提案する。
FIRMは幻覚を緩和し、既存の一般的なモデルに対する忠実さと命令順守の新しい標準を確立した。
論文 参考訳(メタデータ) (2026-03-12T17:57:21Z) - EditThinker: Unlocking Iterative Reasoning for Any Image Editor [72.28251670314451]
編集中に「考える」ための熟考的な編集フレームワークを提案する。
このフレームワークの推論エンジンとして機能するために、単一のMLLM、EditThinkerをトレーニングします。
我々は、強化学習を用いて、EditThinkerの思考をその編集と整合させ、よりターゲットを絞った命令改善を生成する。
論文 参考訳(メタデータ) (2025-12-05T18:58:09Z) - Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback [41.41713036839503]
本稿では,ポリシー最適化に基づく命令ベースの画像編集のための新しいポストトレーニングフレームワークであるEdit-R1を紹介する。
我々は,Multimodal Large Language Model (MLLM) を統一学習自由報酬モデルとして採用し,その出力ロジットを活用し,きめ細かいフィードバックを提供する。
私たちのフレームワークはモデルに依存しないため、多様なベースモデルに適用した場合、大幅なパフォーマンス向上が得られます。
論文 参考訳(メタデータ) (2025-10-19T15:38:06Z) - EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling [71.8265422228785]
強化学習(RL)は有望な解決策を提供するが、画像編集におけるその採用は、高忠実で効率的な報酬信号の欠如によって妨げられている。
我々は、最先端の特殊報酬モデルの開発を中心に、この障壁を克服するための包括的な方法論を提案する。
論文 参考訳(メタデータ) (2025-09-28T14:28:24Z) - DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion
Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。
拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。
我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文 参考訳(メタデータ) (2023-05-25T17:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。