論文の概要: Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis
- arxiv url: http://arxiv.org/abs/2602.13028v1
- Date: Fri, 13 Feb 2026 15:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.013491
- Title: Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis
- Title(参考訳): 微粒化画像編集評価のためのヒューマンアライメントMLLM審査員:ベンチマーク,フレームワーク,分析
- Authors: Runzhou Liu, Hailey Weingord, Sejal Mittal, Prakhar Dungarwal, Anusha Nandula, Bo Ni, Samyadeep Basu, Hongjie Chen, Nesreen K. Ahmed, Li Li, Jiayi Zhang, Koustava Goswami, Subhojyoti Mukherjee, Branislav Kveton, Puneet Mathur, Franck Dernoncourt, Yue Zhao, Yu Wang, Ryan A. Rossi, Zhengzhong Tu, Hongru Du,
- Abstract要約: 画像編集のための細粒度マルチモーダル大言語モデル (MLLM)-as-a-Judge フレームワークを提案する。
本稿では,人間の判断,MLLMに基づく評価,モデル出力,従来のメトリクスを統合した人為的評価ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 95.89328387635176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating image editing models remains challenging due to the coarse granularity and limited interpretability of traditional metrics, which often fail to capture aspects important to human perception and intent. Such metrics frequently reward visually plausible outputs while overlooking controllability, edit localization, and faithfulness to user instructions. In this work, we introduce a fine-grained Multimodal Large Language Model (MLLM)-as-a-Judge framework for image editing that decomposes common evaluation notions into twelve fine-grained interpretable factors spanning image preservation, edit quality, and instruction fidelity. Building on this formulation, we present a new human-validated benchmark that integrates human judgments, MLLM-based evaluations, model outputs, and traditional metrics across diverse image editing tasks. Through extensive human studies, we show that the proposed MLLM judges align closely with human evaluations at a fine granularity, supporting their use as reliable and scalable evaluators. We further demonstrate that traditional image editing metrics are often poor proxies for these factors, failing to distinguish over-edited or semantically imprecise outputs, whereas our judges provide more intuitive and informative assessments in both offline and online settings. Together, this work introduces a benchmark, a principled factorization, and empirical evidence positioning fine-grained MLLM judges as a practical foundation for studying, comparing, and improving image editing approaches.
- Abstract(参考訳): 画像編集モデルの評価は、人間の知覚や意図に重要な側面を捉えるのに失敗する伝統的なメトリクスの粗い粒度と限定的な解釈可能性のため、依然として困難である。
このようなメトリクスは、可視性のある出力をしばしば報酬し、制御性を見落とし、ローカライゼーションを編集し、ユーザー指示に忠実である。
本研究では,画像の保存,編集品質,命令忠実度にまたがる12の微粒な解釈可能な要素に共通評価概念を分解する,画像編集のための細粒なマルチモーダル言語モデル(MLLM)-as-a-Judgeフレームワークを提案する。
この定式化に基づいて、人間の判断、MLLMに基づく評価、モデルアウトプット、および多様な画像編集タスクにわたる伝統的なメトリクスを統合する新しい人間検証ベンチマークを提案する。
広範囲にわたる人的研究を通して,提案するMLLM審査員は,信頼性とスケーラブルな評価指標としての利用を支援するとともに,人的評価をきめ細かな粒度で綿密に調整することを示した。
さらに、従来の画像編集の指標は、しばしばこれらの要因に対して不十分なプロキシであり、過度に編集されたり、意味的に不正確であったりするアウトプットを区別できないことを実証しています。
この研究は、画像編集アプローチの研究、比較、改善のための実践的な基礎として、詳細なMLLM審査員を位置づけるベンチマーク、原理化された因子化、実証的な証拠を導入している。
関連論文リスト
- How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。
本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T09:24:45Z) - EditThinker: Unlocking Iterative Reasoning for Any Image Editor [72.28251670314451]
編集中に「考える」ための熟考的な編集フレームワークを提案する。
このフレームワークの推論エンジンとして機能するために、単一のMLLM、EditThinkerをトレーニングします。
我々は、強化学習を用いて、EditThinkerの思考をその編集と整合させ、よりターゲットを絞った命令改善を生成する。
論文 参考訳(メタデータ) (2025-12-05T18:58:09Z) - Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment [8.451522319478512]
各種コンセントから抽出された1,343枚の画像検索ペアからなるニューズ画像ベンチマークを導入する。
我々は、最先端のVLMの評価を行い、人間の検証を伴って、大きな言語モデル(LLM)を判断に用いた。
その結果, (i) 視覚的文脈は, モデル出力をオープンエンド設定で体系的に変化させる; (ii) バイアスの頻度は属性やモデルによって異なり, 特に性別や職業のリスクが高い; (iii) より高い忠実度は必ずしも低いバイアスに対応しないことがわかった。
論文 参考訳(メタデータ) (2025-09-24T00:33:58Z) - What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。
自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。
DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文 参考訳(メタデータ) (2025-05-26T18:00:10Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。
単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。
本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-04-01T09:36:56Z) - Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives [37.02849705736749]
機械生成画像キャプションの評価は複雑で進化する課題である。
MLLM(Multimodal Large Language Models)の出現に伴い、画像キャプションがコアタスクとなっている。
本調査では,画像キャプション評価の進歩について概観する。
論文 参考訳(メタデータ) (2025-03-18T18:03:56Z) - Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias [52.590072198551944]
画像パーソナライズの目的は、ユーザが提供する課題に基づいて画像を作成することである。
現在の手法では、テキストプロンプトへの忠実性を保証する上で、課題に直面している。
トレーニング画像の歪みを除去するアトラクタを組み込んだ,新たなトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2025-03-09T14:14:02Z) - PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM [17.89238060470998]
拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。
我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
論文 参考訳(メタデータ) (2024-10-08T06:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。