論文の概要: I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models
- arxiv url: http://arxiv.org/abs/2512.04660v1
- Date: Thu, 04 Dec 2025 10:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.119405
- Title: I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models
- Title(参考訳): I2I-Bench:画像間編集モデルのための総合ベンチマークスイート
- Authors: Juntong Wang, Jiarui Wang, Huiyu Duan, Jiaxiang Kang, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: 既存の画像編集ベンチマークは、タスクの範囲が限られており、評価範囲が不十分であり、手動のアノテーションに大きく依存している。
画像間編集モデルの総合的なベンチマークである textbfI2I-Bench を提案する。
I2I-Benchを用いて、多数の主流画像編集モデルをベンチマークし、様々な次元にわたる編集モデル間のギャップとトレードオフを調査した。
- 参考スコア(独自算出の注目度): 78.62380562116135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image editing models are advancing rapidly, yet comprehensive evaluation remains a significant challenge. Existing image editing benchmarks generally suffer from limited task scopes, insufficient evaluation dimensions, and heavy reliance on manual annotations, which significantly constrain their scalability and practical applicability. To address this, we propose \textbf{I2I-Bench}, a comprehensive benchmark for image-to-image editing models, which features (i) diverse tasks, encompassing 10 task categories across both single-image and multi-image editing tasks, (ii) comprehensive evaluation dimensions, including 30 decoupled and fine-grained evaluation dimensions with automated hybrid evaluation methods that integrate specialized tools and large multimodal models (LMMs), and (iii) rigorous alignment validation, justifying the consistency between our benchmark evaluations and human preferences. Using I2I-Bench, we benchmark numerous mainstream image editing models, investigating the gaps and trade-offs between editing models across various dimensions. We will open-source all components of I2I-Bench to facilitate future research.
- Abstract(参考訳): 画像編集モデルは急速に進歩しているが、包括的な評価は依然として大きな課題である。
既存の画像編集ベンチマークでは、タスクの範囲が限られており、評価範囲が不十分であり、手動のアノテーションに大きく依存しているため、スケーラビリティと実用性が著しく制限されている。
これを解決するために,画像と画像の編集モデルのための総合的なベンチマークである \textbf{I2I-Bench} を提案する。
(i)多種多様なタスクであって、単一の画像と複数画像の編集タスクにまたがる10のタスクカテゴリを含んでいる。
(II)特殊ツールと大型マルチモーダルモデル(LMM)を統合した自動ハイブリッド評価手法による30の疎結合ききめ細かな評価次元を含む総合的な評価次元
3) 厳格なアライメント検証により、ベンチマーク評価と人間の嗜好の整合性を正当化する。
I2I-Benchを用いて、多数の主流画像編集モデルをベンチマークし、様々な次元にわたる編集モデル間のギャップとトレードオフを調査した。
I2I-Benchのすべてのコンポーネントをオープンソース化して、今後の研究を促進するつもりです。
関連論文リスト
- UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - ImgEdit: A Unified Image Editing Dataset and Benchmark [14.185771939071149]
大規模な画像編集データセットであるImgEditを紹介した。
ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。
画像編集性能を評価するためのベンチマークであるImgEdit-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-26T17:53:33Z) - CompBench: Benchmarking Complex Instruction-guided Image Editing [63.347846732450364]
CompBenchは複雑な命令誘導画像編集のための大規模なベンチマークである。
本稿では,タスクパイプラインを調整したMLLM-ヒューマン協調フレームワークを提案する。
編集意図を4つの重要な次元に分割する命令分離戦略を提案する。
論文 参考訳(メタデータ) (2025-05-18T02:30:52Z) - PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM [17.89238060470998]
拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。
我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
論文 参考訳(メタデータ) (2024-10-08T06:05:15Z) - I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing [67.05794909694649]
I2EBenchはIIEモデルによって生成された編集画像の品質を評価するための総合的なベンチマークである。
I2EBenchは2000以上の編集用イメージと4,000以上の対応するオリジナルおよび多様な命令で構成されている。
我々はI2EBenchをオープンソースとして公開し、すべての命令、入力画像、人間のアノテーション、すべての評価方法からの編集画像、新しいIIEモデルからの結果を評価するためのシンプルなスクリプトを公開します。
論文 参考訳(メタデータ) (2024-08-26T11:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。