Fugu-MT 論文翻訳(概要): HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image Models

論文の概要: HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image Models

arxiv url: http://arxiv.org/abs/2304.05390v2
Date: Thu, 23 Nov 2023 11:45:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 04:31:57.790720
Title: HRS-Bench: Holistic, Reliable and Scalable Benchmark for Text-to-Image Models
Title（参考訳）: HRS-Bench: テキスト-画像モデルのためのホロスティックで信頼性が高くスケーラブルなベンチマーク
Authors: Eslam Mohamed Bakr, Pengzhan Sun, Xiaoqian Shen, Faizan Farooq Khan, Li Erran Li, Mohamed Elhoseiny
Abstract要約: HRS-Benchはテキスト・ツー・イメージ(T2I)モデルの評価ベンチマークである。正確性、堅牢性、一般化、公正性、偏見の5つのカテゴリに分類される13のスキルを測定する。ファッション、動物、輸送、食品、衣服など50のシナリオをカバーしている。
参考スコア（独自算出の注目度）: 39.38477117444303
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In recent years, Text-to-Image (T2I) models have been extensively studied, especially with the emergence of diffusion models that achieve state-of-the-art results on T2I synthesis tasks. However, existing benchmarks heavily rely on subjective human evaluation, limiting their ability to holistically assess the model's capabilities. Furthermore, there is a significant gap between efforts in developing new T2I architectures and those in evaluation. To address this, we introduce HRS-Bench, a concrete evaluation benchmark for T2I models that is Holistic, Reliable, and Scalable. Unlike existing bench-marks that focus on limited aspects, HRS-Bench measures 13 skills that can be categorized into five major categories: accuracy, robustness, generalization, fairness, and bias. In addition, HRS-Bench covers 50 scenarios, including fashion, animals, transportation, food, and clothes. We evaluate nine recent large-scale T2I models using metrics that cover a wide range of skills. A human evaluation aligned with 95% of our evaluations on average was conducted to probe the effectiveness of HRS-Bench. Our experiments demonstrate that existing models often struggle to generate images with the desired count of objects, visual text, or grounded emotions. We hope that our benchmark help ease future text-to-image generation research. The code and data are available at https://eslambakr.github.io/hrsbench.github.io
Abstract（参考訳）: 近年,テキスト・トゥ・イメージ(T2I)モデルの研究が盛んに行われており,特にT2I合成タスクにおける最新結果が得られる拡散モデルが出現している。しかし、既存のベンチマークは主観的な人間の評価に大きく依存しており、モデルの性能を全体的評価する能力を制限する。さらに、新しいT2Iアーキテクチャの開発と評価の成果との間には大きなギャップがある。そこで本研究では,t2iモデルの具体的評価ベンチマークであるhrs-bench(hrs-bench)を提案する。限られた側面に焦点を当てた既存のベンチマークとは異なり、hrs-benchは13のスキルを測定し、正確性、堅牢性、一般化、公平性、バイアスの5つの主要なカテゴリに分類できる。さらに、HRS-Benchはファッション、動物、輸送、食べ物、衣服を含む50のシナリオをカバーする。幅広いスキルをカバーするメトリクスを用いて,最近の9つの大規模t2iモデルを評価した。 HRS-Benchの有効性を調査するために, 平均的評価の95%と一致した人的評価を行った。我々の実験では、既存のモデルは、望まれる対象数、視覚的テキストまたは接地感情で画像を生成するのに苦労することが多い。われわれのベンチマークは、将来のテキストから画像までの研究を容易にすることを願っている。コードとデータはhttps://eslambakr.github.io/hrsbench.github.ioで入手できる。

関連論文リスト

EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-24T04:08:25Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction [10.428174043080622]
大規模言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。本稿では,標準テストの限界に対処する評価フレームワークであるSWiMを提案する。また,この効果を緩和する,単純かつ効果的なトレーニングフリーアプローチであるメドイド投票を提案する。
論文参考訳（メタデータ） (2024-07-04T05:46:20Z)
PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文参考訳（メタデータ） (2024-06-17T17:49:01Z)
A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A Study with Unified Text-to-Image Fidelity Metrics [58.83242220266935]
我々は,T2Iモデルの構成性を評価するためのベンチマークであるWinoground-T2Iを紹介する。このベンチマークには、20のカテゴリにまたがる11Kの複雑で高品質なコントラスト文ペアが含まれている。我々は、Winoground-T2Iモデルの性能評価と、その評価に使用される指標の2つの目的を兼ね備えたWinoground-T2Iを用いている。
論文参考訳（メタデータ） (2023-12-04T20:47:48Z)
DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual Design [124.56730013968543]
ビジュアルデザインシナリオに適したテキスト・ツー・イメージ(T2I)生成ベンチマークであるDesignBenchを紹介する。 DesignBenchベンチマークでは、画像テキストアライメント、視覚美学、デザインクリエイティビティの基準に対して、生成された画像に対する人間による評価を行う。 GPT-4Vを用いた最初の自動画像生成評価器を提案する。
論文参考訳（メタデータ） (2023-10-23T17:48:38Z)
Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文参考訳（メタデータ） (2023-04-21T09:07:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。