論文の概要: LMM4Edit: Benchmarking and Evaluating Multimodal Image Editing with LMMs
- arxiv url: http://arxiv.org/abs/2507.16193v1
- Date: Tue, 22 Jul 2025 03:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.946387
- Title: LMM4Edit: Benchmarking and Evaluating Multimodal Image Editing with LMMs
- Title(参考訳): LMM4Edit: LMMによるマルチモーダル画像編集のベンチマークと評価
- Authors: Zitong Xu, Huiyu Duan, Bingnan Liu, Guangji Ma, Jiarui Wang, Liu Yang, Shiqi Gao, Xiaoyu Wang, Jia Wang, Xiongkuo Min, Guangtao Zhai, Weisi Lin,
- Abstract要約: EBench-18Kは、18K編集画像を含む最初の大規模画像編集ベンチマークである。
EBench-18Kは、21タスクにわたる対応する編集プロンプトを備えた1,080のソースイメージと、17の最先端TIEモデルによって生成された18K+編集イメージと、3つの評価次元から評価された55K+平均評価スコア(MOS)と18K+質問回答(QA)ペアを含む。
そして,LMMに基づく画像編集モデル評価のためのLMM4Editを提案する。
- 参考スコア(独自算出の注目度): 76.57152007140475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Text-guided Image Editing (TIE) enables image modifications through text prompts. However, current TIE models still struggle to balance image quality, editing alignment, and consistency with the original image, limiting their practical applications. Existing TIE evaluation benchmarks and metrics have limitations on scale or alignment with human perception. To this end, we introduce EBench-18K, the first large-scale image Editing Benchmark including 18K edited images with fine-grained human preference annotations for evaluating TIE. Specifically, EBench-18K includes 1,080 source images with corresponding editing prompts across 21 tasks, 18K+ edited images produced by 17 state-of-the-art TIE models, 55K+ mean opinion scores (MOSs) assessed from three evaluation dimensions, and 18K+ question-answering (QA) pairs. Based on EBench-18K, we employ outstanding LMMs to assess edited images, while the evaluation results, in turn, provide insights into assessing the alignment between the LMMs' understanding ability and human preferences. Then, we propose LMM4Edit, a LMM-based metric for evaluating image Editing models from perceptual quality, editing alignment, attribute preservation, and task-specific QA accuracy in an all-in-one manner. Extensive experiments show that LMM4Edit achieves outstanding performance and aligns well with human preference. Zero-shot validation on the other datasets also shows the generalization ability of our model. The dataset and code are available at https://github.com/IntMeGroup/LMM4Edit.
- Abstract(参考訳): テキスト誘導画像編集(TIE)の急速な進歩により、テキストプロンプトによる画像修正が可能となった。
しかし、現在のTIEモデルは、画像の品質、編集の整合性、元の画像との整合性のバランスに苦慮し、実用的利用を制限している。
既存のTIE評価ベンチマークとメトリクスは、スケールや人間の知覚との整合性に制限がある。
そこで本研究では,TIE評価のための微粒な人選好アノテーションを備えた18K編集画像を含む,最初の大規模画像編集ベンチマークであるEBench-18Kを紹介する。
具体的には、EBench-18Kは、21タスクにわたる対応する編集プロンプトを持つ1,080のソース画像と、17の最先端TIEモデルによって生成された18K+編集画像と、3つの評価次元から評価された55K+平均評価スコア(MOS)と、18K+質問回答ペアを含む。
EBench-18Kに基づいて,編集画像の評価に優れたLMMを採用し,その評価結果から,LMMの理解能力と人間の嗜好の整合性を評価する知見を提供する。
次に,LMM4Editを提案する。LMM4Editは,画像編集モデルの知覚品質,編集アライメント,属性保存,タスク固有のQAの精度をオールインワンで評価するためのメトリクスである。
LMM4Editは優れた性能を示し、人間の好みとよく一致している。
他のデータセットのゼロショット検証も、モデルの一般化能力を示している。
データセットとコードはhttps://github.com/IntMeGroup/LMM4Editで公開されている。
関連論文リスト
- ImgEdit: A Unified Image Editing Dataset and Benchmark [14.185771939071149]
大規模な画像編集データセットであるImgEditを紹介した。
ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。
画像編集性能を評価するためのベンチマークであるImgEdit-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-26T17:53:33Z) - GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - Towards Scalable Human-aligned Benchmark for Text-guided Image Editing [9.899869794429579]
テキストガイド画像編集のためのHATIE(Human-Aligned benchmark for Text-Guided Image Editing)を提案する。
HATIEは、完全に自動化された全方位評価パイプラインを提供する。
我々は、HATIEの評価が、実際に様々な側面において人間と一致していることを実証的に検証した。
論文 参考訳(メタデータ) (2025-05-01T13:06:05Z) - LMM4LMM: Benchmarking and Evaluating Large-multimodal Image Generation with LMMs [52.79503055897109]
大規模マルチモーダル画像生成評価のための総合的データセットとベンチマークであるEvalMi-50Kを提案する。
複数の次元から大きなマルチモーダルT2Iを生成するためのLMM4LMMを提案する。
論文 参考訳(メタデータ) (2025-04-11T08:46:49Z) - MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding [66.23502779435053]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。
既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。
自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
論文 参考訳(メタデータ) (2024-10-25T16:00:55Z) - I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing [67.05794909694649]
I2EBenchはIIEモデルによって生成された編集画像の品質を評価するための総合的なベンチマークである。
I2EBenchは2000以上の編集用イメージと4,000以上の対応するオリジナルおよび多様な命令で構成されている。
我々はI2EBenchをオープンソースとして公開し、すべての命令、入力画像、人間のアノテーション、すべての評価方法からの編集画像、新しいIIEモデルからの結果を評価するためのシンプルなスクリプトを公開します。
論文 参考訳(メタデータ) (2024-08-26T11:08:44Z) - HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing [38.13162627140172]
HQ-Editは、約20万の編集が可能な高品質な命令ベースの画像編集データセットである。
高品質を確実にするために、多様なサンプルはまずオンラインで収集され、拡張され、次に高品質なディプチチを作るために使用される。
HQ-Editは、細部が豊富で包括的な編集プロンプトを伴う高解像度の画像を編集し、既存の画像編集モデルの能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-04-15T17:59:31Z) - EditVal: Benchmarking Diffusion Based Text-Guided Image Editing Methods [52.43439659492655]
本稿では,テキスト誘導画像編集手法を定量的に評価するための標準ベンチマークであるEditValを紹介する。
EditValは、画像のキュレートされたデータセットと、13の可能な編集タイプから抽出された各画像に対する編集可能な属性セットと、自動評価パイプラインで構成されている。
我々はEditValを用いて、SINE、Imagic、Instruct-Pix2Pixを含む8つの最先端拡散ベースの編集手法をベンチマークする。
論文 参考訳(メタデータ) (2023-10-03T20:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。