論文の概要: ICE-Bench: A Unified and Comprehensive Benchmark for Image Creating and Editing
- arxiv url: http://arxiv.org/abs/2503.14482v1
- Date: Tue, 18 Mar 2025 17:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:15:39.814932
- Title: ICE-Bench: A Unified and Comprehensive Benchmark for Image Creating and Editing
- Title(参考訳): ICE-Bench:イメージ作成と編集のための統一された総合ベンチマーク
- Authors: Yulin Pan, Xiangteng He, Chaojie Mao, Zhen Han, Zeyinzi Jiang, Jingfeng Zhang, Yu Liu,
- Abstract要約: ICE-Benchは、画像生成モデルを厳格に評価するために設計された包括的なベンチマークである。
評価フレームワークは、6次元にわたる画像生成能力を評価する。
既存の世代モデルを徹底的に分析し、ベンチマークの難易度と現在のモデル能力と実世界の世代要件のギャップを明らかにする。
- 参考スコア(独自算出の注目度): 23.512687688393346
- License:
- Abstract: Image generation has witnessed significant advancements in the past few years. However, evaluating the performance of image generation models remains a formidable challenge. In this paper, we propose ICE-Bench, a unified and comprehensive benchmark designed to rigorously assess image generation models. Its comprehensiveness could be summarized in the following key features: (1) Coarse-to-Fine Tasks: We systematically deconstruct image generation into four task categories: No-ref/Ref Image Creating/Editing, based on the presence or absence of source images and reference images. And further decompose them into 31 fine-grained tasks covering a broad spectrum of image generation requirements, culminating in a comprehensive benchmark. (2) Multi-dimensional Metrics: The evaluation framework assesses image generation capabilities across 6 dimensions: aesthetic quality, imaging quality, prompt following, source consistency, reference consistency, and controllability. 11 metrics are introduced to support the multi-dimensional evaluation. Notably, we introduce VLLM-QA, an innovative metric designed to assess the success of image editing by leveraging large models. (3) Hybrid Data: The data comes from real scenes and virtual generation, which effectively improves data diversity and alleviates the bias problem in model evaluation. Through ICE-Bench, we conduct a thorough analysis of existing generation models, revealing both the challenging nature of our benchmark and the gap between current model capabilities and real-world generation requirements. To foster further advancements in the field, we will open-source ICE-Bench, including its dataset, evaluation code, and models, thereby providing a valuable resource for the research community.
- Abstract(参考訳): 画像生成はここ数年で大きな進歩をみせている。
しかし,画像生成モデルの性能評価は依然として困難な課題である。
本稿では,画像生成モデルの厳密な評価を目的とした統合的・包括的ベンチマークICE-Benchを提案する。
1)粗いタスク: 画像生成を4つのタスクカテゴリに体系的に分解する。
さらに、これらを幅広い画像生成要件をカバーする31のきめ細かいタスクに分解し、総合的なベンチマークで結論付ける。
2)多次元メトリクス: 評価フレームワークは, 美的品質, 画像品質, プロンプトフォロー, ソース一貫性, 基準整合性, 制御可能性の6次元にわたる画像生成能力を評価する。
多次元評価をサポートするために11のメトリクスが導入されている。
VLLM-QAは,大規模モデルの活用による画像編集の成功を評価するために設計された,革新的なメトリクスである。
(3)ハイブリッドデータ: データは実際のシーンと仮想生成から得られ、データの多様性を効果的に改善し、モデル評価におけるバイアス問題を緩和する。
ICE-Benchを通じて、既存の世代モデルの徹底的な分析を行い、ベンチマークの難易度と、現在のモデル機能と実世界の生成要件のギャップを明らかにする。
この分野のさらなる進歩を促進するため、データセット、評価コード、モデルを含むICE-Benchをオープンソース化し、研究コミュニティにとって貴重なリソースを提供する。
関連論文リスト
- Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models [52.73820275861131]
テキスト・トゥ・イメージ(T2I)モデルは非常に進歩しており、プロンプト追従と画像生成における印象的な能力を示している。
FLUX.1やIdeogram2.0といった最近のモデルでは、様々な複雑なタスクにおいて例外的な性能を示している。
本研究は,T2Iモデルが汎用ユーザビリティに進化する過程における現状と今後の軌道に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-01-23T18:58:33Z) - You Only Submit One Image to Find the Most Suitable Generative Model [48.67303250592189]
我々は生成モデル同定(GMI)と呼ばれる新しい設定を提案する。
GMIは、ユーザの要求に対して最も適切な生成モデルを効率的に特定できるようにすることを目的としている。
論文 参考訳(メタデータ) (2024-12-16T14:46:57Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Fashion Image-to-Image Translation for Complementary Item Retrieval [13.88174783842901]
本稿では,ジェネレーティブ・コンパティビリティ・モデル(GeCo)を提案する。
3つのデータセットの評価によると、GeCoは最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-08-19T09:50:20Z) - ImagiNet: A Multi-Content Benchmark for Synthetic Image Detection [0.0]
私たちは、写真、絵画、顔、雑多な4つのカテゴリにまたがる200万のサンプルのデータセットであるImagiNetを紹介します。
ImagiNetの合成画像はオープンソースとプロプライエタリの両方のジェネレータで作成され、各コンテントタイプの実際の画像はパブリックデータセットから収集される。
論文 参考訳(メタデータ) (2024-07-29T13:57:24Z) - Which Model Generated This Image? A Model-Agnostic Approach for Origin Attribution [23.974575820244944]
本研究では,生成した画像の起点属性を現実的に検討する。
ゴールは、ある画像がソースモデルによって生成されるかどうかを確認することである。
OCC-CLIPはCLIPをベースとしたワンクラス分類のためのフレームワークである。
論文 参考訳(メタデータ) (2024-04-03T12:54:16Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - GIQA: Generated Image Quality Assessment [36.01759301994946]
現在、GAN(Generative Adversarial Network)は印象的な成果を上げているが、すべての生成した画像が完璧ではない。
本稿では,生成画像の品質を定量的に評価する生成画像品質評価(GIQA)を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。