論文の概要: GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing
- arxiv url: http://arxiv.org/abs/2603.12264v1
- Date: Thu, 12 Mar 2026 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.301148
- Title: GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing
- Title(参考訳): GRADE:画像編集におけるディシプリンインフォームド推論のベンチマーク
- Authors: Mingxin Liu, Ziqian Fan, Zhaokai Wang, Leyao Gu, Zirun Zhu, Yiguo He, Yuchen Yang, Changyao Tian, Xiangyu Zhao, Ning Liao, Shaofeng Zhang, Qibing Ren, Zhihang Zhong, Xuanhe Zhou, Junchi Yan, Xue Yang,
- Abstract要約: GRADEは、画像編集において、規律に反する知識と推論を評価する最初のベンチマークである。
GRADEは10の学術領域で520の慎重にキュレートされたサンプルで構成されている。
- 参考スコア(独自算出の注目度): 67.29558599215902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models target joint understanding, reasoning, and generation, but current image editing benchmarks are largely confined to natural images and shallow commonsense reasoning, offering limited assessment of this capability under structured, domain-specific constraints. In this work, we introduce GRADE, the first benchmark to assess discipline-informed knowledge and reasoning in image editing. GRADE comprises 520 carefully curated samples across 10 academic domains, spanning from natural science to social science. To support rigorous evaluation, we propose a multi-dimensional evaluation protocol that jointly assesses Discipline Reasoning, Visual Consistency, and Logical Readability. Extensive experiments on 20 state-of-the-art open-source and closed-source models reveal substantial limitations in current models under implicit, knowledge-intensive editing settings, leading to large performance gaps. Beyond quantitative scores, we conduct rigorous analyses and ablations to expose model shortcomings and identify the constraints within disciplinary editing. Together, GRADE pinpoints key directions for the future development of unified multimodal models, advancing the research on discipline-informed image editing and reasoning. Our benchmark and evaluation code are publicly released.
- Abstract(参考訳): 統一マルチモーダルモデルは、共同理解、推論、生成をターゲットとしているが、現在の画像編集ベンチマークは主に自然画像と浅いコモンセンス推論に限られており、ドメイン固有の制約の下で、この機能を限定的に評価することができる。
本研究では,画像編集における知識と推論の規律を規定する最初のベンチマークであるGRADEを紹介する。
GRADEは、自然科学から社会科学まで、10の学術領域にわたる520の慎重にキュレートされたサンプルで構成されている。
厳密な評価を支援するために,多次元評価プロトコルを提案する。
最先端の20のオープンソースおよびクローズドソースモデルに対する大規模な実験は、暗黙の知識集約的な編集設定の下で、現在のモデルに重大な制限が示され、大きなパフォーマンスのギャップが生じる。
定量的スコアの他に、厳密な分析と改善を行い、モデルの欠点を明らかにし、ディシプリナ編集における制約を特定します。
GRADEは、統合マルチモーダルモデルの今後の発展に向けて重要な方向性を示し、規律に富んだ画像編集と推論の研究を進めた。
ベンチマークと評価コードは公開されています。
関連論文リスト
- InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models [17.680767010203308]
InEdit-Benchは画像編集における中間経路の推論に特化した最初の評価ベンチマークである。
InEdit-Benchは、状態遷移、動的プロセス、時間的シーケンス、科学的シミュレーションの4つの基本的なタスクカテゴリをカバーする、細心の注意を要するテストケースで構成されている。
InEdit-Benchにおける14の代表的な画像編集モデルの総合的な評価により,この領域の重大な欠点と広範な欠点が明らかとなった。
論文 参考訳(メタデータ) (2026-03-04T02:24:43Z) - Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis [95.89328387635176]
画像編集のための細粒度マルチモーダル大言語モデル (MLLM)-as-a-Judge フレームワークを提案する。
本稿では,人間の判断,MLLMに基づく評価,モデル出力,従来のメトリクスを統合した人為的評価ベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-13T15:34:32Z) - EditThinker: Unlocking Iterative Reasoning for Any Image Editor [72.28251670314451]
編集中に「考える」ための熟考的な編集フレームワークを提案する。
このフレームワークの推論エンジンとして機能するために、単一のMLLM、EditThinkerをトレーニングします。
我々は、強化学習を用いて、EditThinkerの思考をその編集と整合させ、よりターゲットを絞った命令改善を生成する。
論文 参考訳(メタデータ) (2025-12-05T18:58:09Z) - KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models [88.58758610679762]
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark) は、認知的なレンズを通してモデルを評価するための診断ベンチマークである。
本研究は,3つの基礎知識タイプ(実例,概念,手続き)にまたがる編集タスクを分類する。
詳細な評価を支援するため,人間の研究により知識ヒントによって強化され,校正された新しい知識プラウザビリティ指標を組み込んだプロトコルを提案する。
論文 参考訳(メタデータ) (2025-05-22T14:08:59Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM [17.89238060470998]
拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。
我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
論文 参考訳(メタデータ) (2024-10-08T06:05:15Z) - Counterfactual Edits for Generative Evaluation [0.0]
本稿では,画素の代わりに概念に基づく合成結果の評価と説明のためのフレームワークを提案する。
我々のフレームワークは、どのオブジェクトや属性を挿入、削除、または置き換えるべきかを下記した知識ベースの偽物編集を利用する。
局所的な編集を蓄積したグローバルな説明は、モデルが合計で生成できない概念を明らかにすることもできる。
論文 参考訳(メタデータ) (2023-03-02T20:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。