論文の概要: Evaluating Image Editing with LLMs: A Comprehensive Benchmark and Intermediate-Layer Probing Approach
- arxiv url: http://arxiv.org/abs/2603.19775v2
- Date: Wed, 25 Mar 2026 02:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 14:25:25.877881
- Title: Evaluating Image Editing with LLMs: A Comprehensive Benchmark and Intermediate-Layer Probing Approach
- Title(参考訳): LLMによる画像編集の評価: 総合的ベンチマークと中間層探索手法
- Authors: Shiqi Gao, Zitong Xu, Kang Fu, Huiyu Duan, Xiongkuo Min, Jia wang,
- Abstract要約: テキスト誘導画像編集手法の体系的評価のためのベンチマークであるTIEditを紹介する。
信頼性の高い主観的評価を得るために、20人の専門家が採用され、307,200人の主観的評価が得られる。
さらに,隠蔽表現の中間層探索により編集品質を推定するLCMベースの評価器であるEditProbeを提案する。
- 参考スコア(独自算出の注目度): 48.01137214342501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating text-guided image editing (TIE) methods remains a challenging problem, as reliable assessment should simultaneously consider perceptual quality, alignment with textual instructions, and preservation of original image content. Despite rapid progress in TIE models, existing evaluation benchmarks remain limited in scale and often show weak correlation with human perceptual judgments. In this work, we introduce TIEdit, a benchmark for systematic evaluation of text-guided image editing methods. TIEdit consists of 512 source images paired with editing prompts across eight representative editing tasks, producing 5,120 edited images generated by ten state-of-the-art TIE models. To obtain reliable subjective ratings, 20 experts are recruited to produce 307,200 raw subjective ratings, which accumulates into 15,360 mean opinion scores (MOSs) across three evaluation dimensions: perceptual quality, editing alignment, and content preservation. Beyond the benchmark itself, we further propose EditProbe, an LLM-based evaluator that estimates editing quality via intermediate-layer probing of hidden representations. Instead of relying solely on final model outputs, EditProbe extracts informative representations from intermediate layers of multimodal large language models to better capture semantic and perceptual relationships between source images, editing instructions, and edited results. Experimental results demonstrate that widely used automatic evaluation metrics show limited correlation with human judgments on editing tasks, while EditProbe achieves substantially stronger alignment with human perception. Together, TIEdit and EditProbe provide a foundation for more reliable and perceptually aligned evaluation of text-guided image editing methods.
- Abstract(参考訳): テキスト誘導画像編集(TIE)手法の評価は、知覚品質、テキスト命令との整合性、オリジナル画像コンテンツの保存を同時に考慮する必要があるため、依然として難しい問題である。
TIEモデルの急速な進歩にもかかわらず、既存の評価ベンチマークは規模が限られており、人間の知覚的判断と弱い相関を示すことが多い。
本稿では,テキスト誘導画像編集手法の体系的評価のためのベンチマークであるTIEditを紹介する。
TIEditは8つの代表編集タスクにまたがる編集プロンプトと組み合わせた512のソースイメージで構成されており、10の最先端TIEモデルによって生成される5,120の編集イメージを生成する。
信頼性の高い主観的評価を得るために、20名の専門家が307,200名の生の主観的評価を作成し、15,360人の平均世論スコア(MOS)に蓄積し、知覚品質、編集アライメント、コンテンツ保存の3つの評価次元で評価する。
ベンチマークの他に,隠れ表現の中間層探索により編集品質を推定するLCMベースの評価器であるEditProbeも提案する。
EditProbeは最終的なモデル出力にのみ依存するのではなく、マルチモーダルな言語モデルの中間層から情報表現を抽出し、ソースイメージ、編集命令、編集結果間の意味的および知覚的関係をよりよく捉える。
実験の結果、広く使用されている自動評価指標は、編集作業における人間の判断との相関が限定的であるのに対し、EditProbeは人間の知覚とかなり強く一致していることが示されている。
TIEditとEditProbeは、テキスト誘導画像編集手法の信頼性と知覚的に整合した評価のための基盤を提供する。
関連論文リスト
- Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis [95.89328387635176]
画像編集のための細粒度マルチモーダル大言語モデル (MLLM)-as-a-Judge フレームワークを提案する。
本稿では,人間の判断,MLLMに基づく評価,モデル出力,従来のメトリクスを統合した人為的評価ベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-13T15:34:32Z) - IE-Critic-R1: Advancing the Explanatory Measurement of Text-Driven Image Editing for Human Perception Alignment [14.001770505266116]
テキスト駆動画像編集ベンチマークスイート (IE-Bench) を導入し, テキスト駆動画像の評価を強化する。
IE-Benchには、さまざまなソースイメージのデータベース、さまざまな編集プロンプト、および異なる編集方法による対応する編集結果が含まれている。
IE-Critic-R1は、人間の知覚に合わせたテキスト駆動画像編集のための、より包括的で説明可能な品質評価を提供する。
論文 参考訳(メタデータ) (2025-11-22T13:16:58Z) - LMM4Edit: Benchmarking and Evaluating Multimodal Image Editing with LMMs [104.97913324464247]
EBench-18Kは、18K編集画像を含む最初の大規模画像編集ベンチマークである。
EBench-18Kは、21タスクにわたる対応する編集プロンプトを備えた1,080のソースイメージと、17の最先端TIEモデルによって生成された18K+編集イメージと、3つの評価次元から評価された55K+平均評価スコア(MOS)と18K+質問回答(QA)ペアを含む。
そして,LMMに基づく画像編集モデル評価のためのLMM4Editを提案する。
論文 参考訳(メタデータ) (2025-07-22T03:11:07Z) - GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。