Fugu-MT 論文翻訳(概要): I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing

論文の概要: I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing

arxiv url: http://arxiv.org/abs/2408.14180v2
Date: Fri, 27 Sep 2024 13:12:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 05:04:12.124078
Title: I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing
Title（参考訳）: I2EBench: インストラクションベースの画像編集のための総合ベンチマーク
Authors: Yiwei Ma, Jiayi Ji, Ke Ye, Weihuang Lin, Zhibin Wang, Yonghan Zheng, Qiang Zhou, Xiaoshuai Sun, Rongrong Ji,
Abstract要約: I2EBenchはIIEモデルによって生成された編集画像の品質を評価するための総合的なベンチマークである。 I2EBenchは2000以上の編集用イメージと4,000以上の対応するオリジナルおよび多様な命令で構成されている。我々はI2EBenchをオープンソースとして公開し、すべての命令、入力画像、人間のアノテーション、すべての評価方法からの編集画像、新しいIIEモデルからの結果を評価するためのシンプルなスクリプトを公開します。
参考スコア（独自算出の注目度）: 67.05794909694649
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Significant progress has been made in the field of Instruction-based Image Editing (IIE). However, evaluating these models poses a significant challenge. A crucial requirement in this field is the establishment of a comprehensive evaluation benchmark for accurately assessing editing results and providing valuable insights for its further development. In response to this need, we propose I2EBench, a comprehensive benchmark designed to automatically evaluate the quality of edited images produced by IIE models from multiple dimensions. I2EBench consists of 2,000+ images for editing, along with 4,000+ corresponding original and diverse instructions. It offers three distinctive characteristics: 1) Comprehensive Evaluation Dimensions: I2EBench comprises 16 evaluation dimensions that cover both high-level and low-level aspects, providing a comprehensive assessment of each IIE model. 2) Human Perception Alignment: To ensure the alignment of our benchmark with human perception, we conducted an extensive user study for each evaluation dimension. 3) Valuable Research Insights: By analyzing the advantages and disadvantages of existing IIE models across the 16 dimensions, we offer valuable research insights to guide future development in the field. We will open-source I2EBench, including all instructions, input images, human annotations, edited images from all evaluated methods, and a simple script for evaluating the results from new IIE models. The code, dataset and generated images from all IIE models are provided in github: https://github.com/cocoshe/I2EBench.
Abstract（参考訳）: Instruction-based Image Editing (IIE) の分野では重要な進歩があった。しかし、これらのモデルを評価することは大きな課題となる。この分野での重要な要件は、編集結果を正確に評価し、さらなる開発に有用な洞察を提供するための総合的な評価ベンチマークを確立することである。 I2EBenchは,IIEモデルが生成した編集画像の品質を複数の次元から自動評価するための総合的なベンチマークである。 I2EBenchは2000以上の編集用イメージと4,000以上の対応するオリジナルおよび多様な命令で構成されている。特徴は3つある。 1) 総合評価次元: I2EBenchは,高次・低次両方の側面をカバーする16の評価次元から構成され,各IIEモデルの総合評価を提供する。 2) 人間の知覚アライメント: ベンチマークと人間の知覚との整合性を確保するため, 各評価次元について広範なユーザ調査を行った。 3)有意義なリサーチインサイト:16次元にわたる既存のIIEモデルの利点とデメリットを分析することで,この分野における今後の発展を導く貴重な研究インサイトを提供する。我々はI2EBenchをオープンソースとして公開し、すべての命令、入力画像、人間のアノテーション、すべての評価方法からの編集画像、新しいIIEモデルからの結果を評価するためのシンプルなスクリプトを公開します。すべてのIIEモデルのコード、データセット、および生成されたイメージは、githubで提供されている。

関連論文リスト

Quality Assessment and Distortion-aware Saliency Prediction for AI-Generated Omnidirectional Images [70.49595920462579]
本研究は,AIGODIの品質評価と歪みを考慮したサリエンシ予測問題について検討する。 BLIP-2モデルに基づく共有エンコーダを用いた2つのモデルを提案する。
論文参考訳（メタデータ） (2025-06-27T05:36:04Z)
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。 OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-06-09T17:50:21Z)
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models [88.58758610679762]
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark) は、認知的なレンズを通してモデルを評価するための診断ベンチマークである。本研究は,3つの基礎知識タイプ(実例,概念,手続き)にまたがる編集タスクを分類する。詳細な評価を支援するため,人間の研究により知識ヒントによって強化され,校正された新しい知識プラウザビリティ指標を組み込んだプロトコルを提案する。
論文参考訳（メタデータ） (2025-05-22T14:08:59Z)
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文参考訳（メタデータ） (2025-05-16T17:55:54Z)
Towards Scalable Human-aligned Benchmark for Text-guided Image Editing [9.899869794429579]
テキストガイド画像編集のためのHATIE(Human-Aligned benchmark for Text-Guided Image Editing)を提案する。 HATIEは、完全に自動化された全方位評価パイプラインを提供する。我々は、HATIEの評価が、実際に様々な側面において人間と一致していることを実証的に検証した。
論文参考訳（メタデータ） (2025-05-01T13:06:05Z)
AGHI-QA: A Subjective-Aligned Dataset and Metric for AI-Generated Human Images [58.87047247313503]
本稿では,人体画像の品質評価のための大規模ベンチマークAGHI-QAを紹介する。データセットは、400の慎重に作成されたテキストプロンプトから生成される4,000の画像で構成され、10の最先端のT2Iモデルを使用している。我々は,視覚的品質スコア,テキスト画像対応スコア,可視および歪んだ身体部分ラベルを含む多次元アノテーションの収集のために,体系的な主観的研究を行う。
論文参考訳（メタデータ） (2025-04-30T04:36:56Z)
ICE-Bench: A Unified and Comprehensive Benchmark for Image Creating and Editing [23.512687688393346]
ICE-Benchは、画像生成モデルを厳格に評価するために設計された包括的なベンチマークである。評価フレームワークは、6次元にわたる画像生成能力を評価する。既存の世代モデルを徹底的に分析し、ベンチマークの難易度と現在のモデル能力と実世界の世代要件のギャップを明らかにする。
論文参考訳（メタデータ） (2025-03-18T17:53:29Z)
IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models [52.73820275861131]
テキスト・トゥ・イメージ(T2I)モデルは非常に進歩しており、プロンプト追従と画像生成における印象的な能力を示している。 FLUX.1やIdeogram2.0といった最近のモデルでは、様々な複雑なタスクにおいて例外的な性能を示している。本研究は,T2Iモデルが汎用ユーザビリティに進化する過程における現状と今後の軌道に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2025-01-23T18:58:33Z)
AI-generated Image Quality Assessment in Visual Communication [72.11144790293086]
AIGI-VCは、視覚コミュニケーションにおけるAI生成画像の品質評価データベースである。データセットは、14の広告トピックと8つの感情タイプにまたがる2500のイメージで構成されている。粗い人間の嗜好アノテーションときめ細かい嗜好記述を提供し、選好予測、解釈、推論におけるIQAメソッドの能力をベンチマークする。
論文参考訳（メタデータ） (2024-12-20T08:47:07Z)
A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文参考訳（メタデータ） (2024-10-19T11:11:09Z)
PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM [17.89238060470998]
拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
論文参考訳（メタデータ） (2024-10-08T06:05:15Z)
SOOD-ImageNet: a Large-Scale Dataset for Semantic Out-Of-Distribution Image Classification and Semantic Segmentation [6.21476985578569]
コンピュータビジョンにおけるアウト・オブ・ディストリビューション(OOD)検出は重要な研究領域である。 SOOD-ImageNetは56のクラスにまたがる1.6万の画像からなる新しいデータセットである。 OOD条件下でのイメージ分類やセマンティックセグメンテーションなどの一般的なコンピュータビジョンタスクのために設計されている。
論文参考訳（メタデータ） (2024-09-02T09:37:39Z)
Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。 AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文参考訳（メタデータ） (2024-07-03T19:36:33Z)
PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文参考訳（メタデータ） (2024-06-17T17:49:01Z)
A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文参考訳（メタデータ） (2024-05-30T04:46:40Z)
AIGCOIQA2024: Perceptual Quality Assessment of AI Generated Omnidirectional Images [70.42666704072964]
我々はAI生成の全方位画像IQAデータベースAIIGCOIQA2024を構築した。 3つの視点から人間の視覚的嗜好を評価するために、主観的IQA実験を行った。我々は,データベース上での最先端IQAモデルの性能を評価するためのベンチマーク実験を行った。
論文参考訳（メタデータ） (2024-04-01T10:08:23Z)
AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文参考訳（メタデータ） (2024-01-03T10:08:40Z)
Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文参考訳（メタデータ） (2023-11-07T19:00:56Z)
AIGCIQA2023: A Large-scale Image Quality Assessment Database for AI Generated Images: from the Perspectives of Quality, Authenticity and Correspondence [42.85549933048976]
100プロンプトを用いて6つの最先端テキスト画像生成モデルに基づいて2000以上の画像を生成する。これらの画像に基づいて、各画像に対する人間の視覚的嗜好を3つの視点から評価する主観的な実験を行った。構築したデータベース上で,いくつかの最先端IQAメトリクスの性能を評価するためのベンチマーク実験を行った。
論文参考訳（メタデータ） (2023-07-01T03:30:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。