論文の概要: ReasonEdit: Towards Interpretable Image Editing Evaluation via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.07477v1
- Date: Fri, 08 May 2026 09:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.949927
- Title: ReasonEdit: Towards Interpretable Image Editing Evaluation via Reinforcement Learning
- Title(参考訳): ReasonEdit:強化学習による解釈可能な画像編集評価を目指して
- Authors: Honghua Chen, Zitong Xu, Huiyu Duan, Xinyun Zhang, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: 本稿では,テキスト誘導画像編集のための評価ツールReasonEditを紹介する。
Re-Reward と Group Relative Policy Optimization (GRPO) アルゴリズムから得られる報奨信号を用いて訓練する。
高品質な解釈可能な評価テキストを生成することができ、画像編集の透明性と信頼性を高めることができる。
- 参考スコア(独自算出の注目度): 86.61218827780675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-guided image editing (TIE) models have achieved remarkable progress, however, many edited results still suffer from artifacts, unintended modifications, and suboptimal aesthetics. Although several benchmarks and evaluation methods have been proposed, most existing approaches rely on scalar scores and lack interpretability. This limitation largely stems from the absence of high-quality interpretation datasets for TIE and effective reward models to train interpretable evaluators. To address these challenges, we introduce ReasonEdit-22K, the first dataset that combines 22K edited images with 113K Chain-of-Thought (CoT) samples, along with 1.3M human judgments assessing these interpretations in terms of logicality, accuracy, and usefulness. Building upon this dataset, we propose RE-Reward, a multimodal large language model (MLLM)-based reward model designed to provide human-aligned feedback for evaluating interpretable reasoning in image editing. Furthermore, we develop ReasonEdit, which is trained using reward signals derived from RE-Reward and the Group Relative Policy Optimization (GRPO) algorithm to learn an interpretable evaluation model. Extensive experiments demonstrate that ReasonEdit achieves superior alignment with human preferences and exhibits strong generalization across public benchmarks. In addition, it is capable of generating high-quality interpretable evaluation text, enabling more transparent and trustworthy assessment for image editing. The code is available at https://github.com/IntMeGroup/ReasonEdit.
- Abstract(参考訳): 最近のテキスト誘導画像編集(TIE)モデルは目覚ましい進歩を遂げているが、多くの編集結果はまだアーティファクト、意図しない修正、そして準最適美学に悩まされている。
いくつかのベンチマークや評価手法が提案されているが、既存のアプローチのほとんどはスカラースコアに依存し、解釈可能性に欠ける。
この制限は、TIEのための高品質な解釈データセットや、解釈可能な評価器を訓練するための効果的な報酬モデルが欠如していることに起因している。
これらの課題に対処するため、最初のデータセットであるReasonEdit-22Kを導入し、22Kの編集画像と113KのChain-of-Thought(CoT)サンプルを組み合わせた。
このデータセットに基づいて、画像編集における解釈可能な推論を評価するための人間によるフィードバックを提供するために、マルチモーダルな大規模言語モデル(MLLM)に基づく報酬モデルであるRE-Rewardを提案する。
さらに,Re-Reward と Group Relative Policy Optimization (GRPO) アルゴリズムから得られる報酬信号を用いて,解釈可能な評価モデルを学ぶReasonEdit を開発した。
大規模な実験により、ReasonEditは人間の好みと優れた整合性を達成し、公開ベンチマーク全体にわたって強力な一般化を示すことが示されている。
さらに、高品質な解釈可能な評価テキストを生成することができ、画像編集の透明性と信頼性を高めることができる。
コードはhttps://github.com/IntMeGroup/ReasonEditで入手できる。
関連論文リスト
- Leveraging Verifier-Based Reinforcement Learning in Image Editing [41.64251379221566]
本稿では,下流画像編集のための階層検証型推論報酬モデル(RRM)を構築するフレームワークであるEdit-R1を紹介する。
我々の実験は、編集固有の報酬モデルとして強力なVLMを超越していることを示した。
論文 参考訳(メタデータ) (2026-04-30T06:54:39Z) - Evaluating Image Editing with LLMs: A Comprehensive Benchmark and Intermediate-Layer Probing Approach [48.01137214342501]
テキスト誘導画像編集手法の体系的評価のためのベンチマークであるTIEditを紹介する。
信頼性の高い主観的評価を得るために、20人の専門家が採用され、307,200人の主観的評価が得られる。
さらに,隠蔽表現の中間層探索により編集品質を推定するLCMベースの評価器であるEditProbeを提案する。
論文 参考訳(メタデータ) (2026-03-20T09:05:10Z) - EditHF-1M: A Million-Scale Rich Human Preference Feedback for Image Editing [80.4661213011098]
人選好ペアが29万、人選好スコアが148万である画像編集データセットである textbfEditHF-1M を提示する。
また,テキスト誘導画像編集モデルの最適化のために,EditHFを報酬信号として利用するtextbfEditHF-Rewardを導入する。
論文 参考訳(メタデータ) (2026-03-16T07:24:56Z) - ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing [33.888289858260706]
画像編集の質を向上させるために,強化学習(RL)について検討した。
RL は,(1) ノイズ除去に限定した推論探索,(2) バイアスド報酬融合,(3) 不安定な VLM ベースの命令報酬の3つの主要な課題に直面している。
画像合成から視覚的推論を分離する推論中心のRLフレームワークであるThinkRL-Editを提案する。
論文 参考訳(メタデータ) (2026-01-06T23:43:00Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。