論文の概要: EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling
- arxiv url: http://arxiv.org/abs/2509.23909v2
- Date: Tue, 30 Sep 2025 15:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.871072
- Title: EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling
- Title(参考訳): EditScore:高忠実リワードモデリングによる画像編集のためのオンラインRLのロック解除
- Authors: Xin Luo, Jiahao Wang, Chenyuan Wu, Shitao Xiao, Xiyan Jiang, Defu Lian, Jiajun Zhang, Dong Liu, Zheng liu,
- Abstract要約: 強化学習(RL)は有望な解決策を提供するが、画像編集におけるその採用は、高忠実で効率的な報酬信号の欠如によって妨げられている。
我々は、最先端の特殊報酬モデルの開発を中心に、この障壁を克服するための包括的な方法論を提案する。
- 参考スコア(独自算出の注目度): 71.8265422228785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-guided image editing has achieved remarkable progress, yet current models still face challenges with complex instructions and often require multiple samples to produce a desired result. Reinforcement Learning (RL) offers a promising solution, but its adoption in image editing has been severely hindered by the lack of a high-fidelity, efficient reward signal. In this work, we present a comprehensive methodology to overcome this barrier, centered on the development of a state-of-the-art, specialized reward model. We first introduce EditReward-Bench, a comprehensive benchmark to systematically evaluate reward models on editing quality. Building on this benchmark, we develop EditScore, a series of reward models (7B-72B) for evaluating the quality of instruction-guided image editing. Through meticulous data curation and filtering, EditScore effectively matches the performance of learning proprietary VLMs. Furthermore, coupled with an effective self-ensemble strategy tailored for the generative nature of EditScore, our largest variant even surpasses GPT-5 in the benchmark. We then demonstrate that a high-fidelity reward model is the key to unlocking online RL for image editing. Our experiments show that, while even the largest open-source VLMs fail to provide an effective learning signal, EditScore enables efficient and robust policy optimization. Applying our framework to a strong base model, OmniGen2, results in a final model that shows a substantial and consistent performance uplift. Overall, this work provides the first systematic path from benchmarking to reward modeling to RL training in image editing, showing that a high-fidelity, domain-specialized reward model is the key to unlocking the full potential of RL in this domain.
- Abstract(参考訳): インストラクション誘導画像編集は目覚ましい進歩を遂げているが、現在のモデルは複雑な命令を伴う課題に直面しており、望まれる結果を得るためには複数のサンプルを必要とすることが多い。
強化学習(RL)は有望な解決策を提供するが、画像編集におけるその採用は、高忠実で効率的な報酬信号の欠如によって著しく妨げられている。
本研究では,この障壁を克服するための包括的方法論を提案する。
まず,編集品質の報奨モデルを体系的に評価するための総合ベンチマークであるEditReward-Benchを紹介する。
このベンチマークに基づいて,命令誘導画像編集の品質を評価するための報酬モデル (7B-72B) であるEditScoreを開発した。
厳密なデータキュレーションとフィルタリングによって、EditScoreは、学習専用のVLMのパフォーマンスに効果的にマッチする。
さらに、EditScoreの生成性に合わせた効果的なセルフアンサンブル戦略と組み合わせることで、ベンチマークではGPT-5を超えています。
次に、画像編集のためのオンラインRLをアンロックする鍵として、高忠実度報酬モデルが重要であることを実証する。
実験の結果,最大規模のオープンソースVLMでも効果的な学習信号は得られなかったが,EditScoreは効率的でロバストなポリシー最適化を実現していることがわかった。
OmniGen2という強力なベースモデルに私たちのフレームワークを適用することで、実質的で一貫したパフォーマンス向上を示す最終モデルが出来上がります。
全体として、この研究は、ベンチマークから報酬モデリング、画像編集におけるRLトレーニングへの最初の体系的なパスを提供し、高忠実でドメイン特化報酬モデルが、この領域におけるRLの潜在能力を解放する鍵であることを示している。
関連論文リスト
- RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward [64.78078130943489]
本稿では、報酬モデルでガイドされたMLLMエージェントを介して命令ベースの実行可能画像編集を行うフレームワークであるRetouchIQを紹介する。
RetouchIQは従来のMLLMベースの編集システムや拡散ベースの編集システムよりも意味的一貫性と知覚的品質の両方を大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-19T17:11:59Z) - FinPercep-RM: A Fine-grained Reward Model and Co-evolutionary Curriculum for RL-based Real-world Super-Resolution [87.57784204422218]
人間のフィードバックによる強化学習は、人間の好みを調整する報酬モデルによって導かれる画像生成分野で有効であることが証明されている。
本稿では, アンコーダ・デコーダアーキテクチャに基づく細粒度パーセプ・リワードモデル(FinPercep-RM)を提案する。
グローバルな品質スコアを提供する一方で、局所的な欠陥を空間的に局所化し定量化する知覚的劣化マップも生成する。
論文 参考訳(メタデータ) (2025-12-27T16:55:21Z) - EditThinker: Unlocking Iterative Reasoning for Any Image Editor [72.28251670314451]
編集中に「考える」ための熟考的な編集フレームワークを提案する。
このフレームワークの推論エンジンとして機能するために、単一のMLLM、EditThinkerをトレーニングします。
我々は、強化学習を用いて、EditThinkerの思考をその編集と整合させ、よりターゲットを絞った命令改善を生成する。
論文 参考訳(メタデータ) (2025-12-05T18:58:09Z) - Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback [41.41713036839503]
本稿では,ポリシー最適化に基づく命令ベースの画像編集のための新しいポストトレーニングフレームワークであるEdit-R1を紹介する。
我々は,Multimodal Large Language Model (MLLM) を統一学習自由報酬モデルとして採用し,その出力ロジットを活用し,きめ細かいフィードバックを提供する。
私たちのフレームワークはモデルに依存しないため、多様なベースモデルに適用した場合、大幅なパフォーマンス向上が得られます。
論文 参考訳(メタデータ) (2025-10-19T15:38:06Z) - Training-Free Reward-Guided Image Editing via Trajectory Optimal Control [55.64204232819136]
トレーニング不要な報酬誘導画像編集のための新しいフレームワークを提案する。
提案手法は,既存のインバージョンベースのトレーニングフリーベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-09-30T06:34:37Z) - The Promise of RL for Autoregressive Image Editing [26.91488709748245]
本稿では,幅広い画像編集タスクの性能向上のための3つの戦略について検討する。
我々は,テキストトークンと視覚トークンを統一的に処理する自動回帰マルチモーダルモデルを採用する。
RLと大規模マルチモーダルLLM検証器を組み合わせることで,これらの戦略の最も効果的な方法が分かる。
論文 参考訳(メタデータ) (2025-08-01T23:47:29Z) - Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。
本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。
さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-23T20:34:43Z) - Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。
GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。
評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文 参考訳(メタデータ) (2025-04-24T17:25:12Z) - EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。