論文の概要: Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling
- arxiv url: http://arxiv.org/abs/2605.13062v1
- Date: Wed, 13 May 2026 06:33:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.847068
- Title: Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling
- Title(参考訳): Edit-Compass & EditReward-Compass:画像編集とリワードモデリングのための統一ベンチマーク
- Authors: Xuehai Bai, Yang Shi, Yi-Fan Zhang, Xuanyu Zhu, Yuran Wang, Yifan Dai, Xinyu Liu, Yiyan Ji, Xiaoling Gu, Yuanxing Zhang,
- Abstract要約: 画像編集と報酬モデリングのための統合評価スイートであるEdit- and Edit-Rewardを紹介する。
Edit-Rewardには6つの段階的な課題カテゴリにまたがる2,388のアノテーション付きインスタンスが含まれている。
構造的推論と慎重に設計されたルーリックに基づく細粒度多次元評価フレームワークを採用する。
- 参考スコア(独自算出の注目度): 18.3502725927898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent image editing models have achieved remarkable progress in instruction following, multimodal understanding, and complex visual editing. However, existing benchmarks often fail to faithfully reflect human judgment, especially for strong frontier models, due to limited task difficulty and coarse-grained evaluation protocols. In parallel, reward models have become increasingly important for RL-based image editing optimization, yet existing reward model benchmarks still rely on unrealistic evaluation settings that deviate from practical RL scenarios. These limitations hinder reliable assessment of both image editing models and reward models. To address these challenges, we introduce Edit-Compass and EditReward-Compass, a unified evaluation suite for image editing and reward modeling. Edit-Compass contains 2,388 carefully annotated instances spanning six progressively challenging task categories, covering capabilities such as world knowledge reasoning, visual reasoning, and multi-image editing. Beyond broad task coverage, Edit-Compass adopts a fine-grained multidimensional evaluation framework based on structured reasoning and carefully designed scoring rubrics. In parallel, EditReward-Compass contains 2,251 preference pairs that simulate realistic reward modeling scenarios during RL optimization.
- Abstract(参考訳): 最近の画像編集モデルは、命令の追従、マルチモーダル理解、複雑な視覚編集において顕著な進歩を遂げている。
しかしながら、既存のベンチマークは、特に強力なフロンティアモデルにおいて、タスクの困難さと粗い評価プロトコルのために、人間の判断を忠実に反映しないことが多い。
並行して、報酬モデルは、RLベースの画像編集最適化においてますます重要になっているが、既存の報酬モデルベンチマークは、実用的なRLシナリオから逸脱した非現実的な評価設定に依存している。
これらの制限は画像編集モデルと報酬モデルの両方の信頼性評価を妨げる。
これらの課題に対処するために,画像編集と報酬モデリングのための統合評価スイートであるEdit-CompassとEditReward-Compassを紹介する。
Edit-Compassには、世界知識推論、ビジュアル推論、マルチイメージ編集などの機能をカバーする6つの課題カテゴリにまたがる2,388の注釈付きインスタンスが含まれている。
広範なタスクカバレッジに加えて、Edit-Compassは構造化推論に基づくきめ細かい多次元評価フレームワークを採用しており、慎重に設計されている。
並行してEditReward-Compassは、RL最適化中に現実的な報酬モデリングシナリオをシミュレートする2,251の選好ペアを含んでいる。
関連論文リスト
- ReasonEdit: Towards Interpretable Image Editing Evaluation via Reinforcement Learning [86.61218827780675]
本稿では,テキスト誘導画像編集のための評価ツールReasonEditを紹介する。
Re-Reward と Group Relative Policy Optimization (GRPO) アルゴリズムから得られる報奨信号を用いて訓練する。
高品質な解釈可能な評価テキストを生成することができ、画像編集の透明性と信頼性を高めることができる。
論文 参考訳(メタデータ) (2026-05-08T09:23:26Z) - Making Image Editing Easier via Adaptive Task Reformulation with Agentic Executions [27.891822809255682]
本稿では,基本モデルを変更することなく,編集性能を向上させる適応型タスク修正フレームワークを提案する。
私たちのキーとなるアイデアは、元のイメージインストラクションペアをMLLMエージェントによって動的に決定され実行される一連の操作に変換することです。
論文 参考訳(メタデータ) (2026-04-17T10:17:22Z) - Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation [67.26349227500084]
現在の報酬モデルは、強化学習の時に批評家として機能し、しばしば幻覚に悩まされ、うるさいスコアを割り当てる。
我々は、忠実な画像生成と編集のための正確で信頼性の高いガイダンスを提供するために、堅牢な報酬モデルを開発する包括的フレームワークFIRMを提案する。
FIRMは幻覚を緩和し、既存の一般的なモデルに対する忠実さと命令順守の新しい標準を確立した。
論文 参考訳(メタデータ) (2026-03-12T17:57:21Z) - DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model [10.609050605838805]
本稿では,IIEMの小型オブジェクト編集能力を評価するための最初のベンチマークであるDeepLookEditBenchを紹介する。
7つの命令タイプにわたる1889のサンプルからなる挑戦的なテストベッドを構築した。
これらのサンプルでは、ターゲットオブジェクトは画像領域の1%-10%しか占めておらず、部分閉塞や複数オブジェクト編集といった複雑なシナリオをカバーしている。
10個のIIEMの実証的な結果から、小規模オブジェクト編集における大きなパフォーマンスギャップが明らかとなり、この機能を前進させるための特別なベンチマークの必要性が浮かび上がっている。
論文 参考訳(メタデータ) (2026-02-27T02:59:34Z) - I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models [78.62380562116135]
既存の画像編集ベンチマークは、タスクの範囲が限られており、評価範囲が不十分であり、手動のアノテーションに大きく依存している。
画像間編集モデルの総合的なベンチマークである textbfI2I-Bench を提案する。
I2I-Benchを用いて、多数の主流画像編集モデルをベンチマークし、様々な次元にわたる編集モデル間のギャップとトレードオフを調査した。
論文 参考訳(メタデータ) (2025-12-04T10:44:07Z) - UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling [71.8265422228785]
強化学習(RL)は有望な解決策を提供するが、画像編集におけるその採用は、高忠実で効率的な報酬信号の欠如によって妨げられている。
我々は、最先端の特殊報酬モデルの開発を中心に、この障壁を克服するための包括的な方法論を提案する。
論文 参考訳(メタデータ) (2025-09-28T14:28:24Z) - PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM [17.89238060470998]
拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。
我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
論文 参考訳(メタデータ) (2024-10-08T06:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。