論文の概要: HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image
Models
- arxiv url: http://arxiv.org/abs/2304.05390v2
- Date: Thu, 23 Nov 2023 11:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 04:31:57.790720
- Title: HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image
Models
- Title(参考訳): HRS-Bench: テキスト-画像モデルのためのホロスティックで信頼性が高くスケーラブルなベンチマーク
- Authors: Eslam Mohamed Bakr, Pengzhan Sun, Xiaoqian Shen, Faizan Farooq Khan,
Li Erran Li, Mohamed Elhoseiny
- Abstract要約: HRS-Benchはテキスト・ツー・イメージ(T2I)モデルの評価ベンチマークである。
正確性、堅牢性、一般化、公正性、偏見の5つのカテゴリに分類される13のスキルを測定する。
ファッション、動物、輸送、食品、衣服など50のシナリオをカバーしている。
- 参考スコア(独自算出の注目度): 39.38477117444303
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, Text-to-Image (T2I) models have been extensively studied,
especially with the emergence of diffusion models that achieve state-of-the-art
results on T2I synthesis tasks. However, existing benchmarks heavily rely on
subjective human evaluation, limiting their ability to holistically assess the
model's capabilities. Furthermore, there is a significant gap between efforts
in developing new T2I architectures and those in evaluation. To address this,
we introduce HRS-Bench, a concrete evaluation benchmark for T2I models that is
Holistic, Reliable, and Scalable. Unlike existing bench-marks that focus on
limited aspects, HRS-Bench measures 13 skills that can be categorized into five
major categories: accuracy, robustness, generalization, fairness, and bias. In
addition, HRS-Bench covers 50 scenarios, including fashion, animals,
transportation, food, and clothes. We evaluate nine recent large-scale T2I
models using metrics that cover a wide range of skills. A human evaluation
aligned with 95% of our evaluations on average was conducted to probe the
effectiveness of HRS-Bench. Our experiments demonstrate that existing models
often struggle to generate images with the desired count of objects, visual
text, or grounded emotions. We hope that our benchmark help ease future
text-to-image generation research. The code and data are available at
https://eslambakr.github.io/hrsbench.github.io
- Abstract(参考訳): 近年,テキスト・トゥ・イメージ(T2I)モデルの研究が盛んに行われており,特にT2I合成タスクにおける最新結果が得られる拡散モデルが出現している。
しかし、既存のベンチマークは主観的な人間の評価に大きく依存しており、モデルの性能を全体的評価する能力を制限する。
さらに、新しいT2Iアーキテクチャの開発と評価の成果との間には大きなギャップがある。
そこで本研究では,t2iモデルの具体的評価ベンチマークであるhrs-bench(hrs-bench)を提案する。
限られた側面に焦点を当てた既存のベンチマークとは異なり、hrs-benchは13のスキルを測定し、正確性、堅牢性、一般化、公平性、バイアスの5つの主要なカテゴリに分類できる。
さらに、HRS-Benchはファッション、動物、輸送、食べ物、衣服を含む50のシナリオをカバーする。
幅広いスキルをカバーするメトリクスを用いて,最近の9つの大規模t2iモデルを評価した。
HRS-Benchの有効性を調査するために, 平均的評価の95%と一致した人的評価を行った。
我々の実験では、既存のモデルは、望まれる対象数、視覚的テキストまたは接地感情で画像を生成するのに苦労することが多い。
われわれのベンチマークは、将来のテキストから画像までの研究を容易にすることを願っている。
コードとデータはhttps://eslambakr.github.io/hrsbench.github.ioで入手できる。
関連論文リスト
- Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScore (TS2) はプロンプトとセットの誤画像を含む意味的誤りグラフのキュレートされた集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A
Study with Unified Text-to-Image Fidelity Metrics [58.83242220266935]
我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。
このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。
我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を兼ね備えたWinoground-T2Iを用いている。
論文 参考訳(メタデータ) (2023-12-04T20:47:48Z) - DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual
Design [124.56730013968543]
ビジュアルデザインシナリオに適したテキスト・ツー・イメージ(T2I)生成ベンチマークであるDesignBenchを紹介する。
DesignBenchベンチマークでは、画像テキストアライメント、視覚美学、デザインクリエイティビティの基準に対して、生成された画像に対する人間による評価を行う。
GPT-4Vを用いた最初の自動画像生成評価器を提案する。
論文 参考訳(メタデータ) (2023-10-23T17:48:38Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Diverse, Difficult, and Odd Instances (D2O): A New Test Set for Object
Classification [47.64219291655723]
既存のテストセットと十分に異なるD2Oと呼ばれる新しいテストセットを導入します。
私たちのデータセットには、36のカテゴリにまたがる8,060のイメージが含まれており、そのうち29がImageNetに表示されています。
私たちのデータセットで最高のTop-1精度は約60%で、ImageNetで91%のTop-1精度よりもはるかに低いです。
論文 参考訳(メタデータ) (2023-01-29T19:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。