論文の概要: EvalGIM: A Library for Evaluating Generative Image Models
- arxiv url: http://arxiv.org/abs/2412.10604v1
- Date: Fri, 13 Dec 2024 23:15:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:53.531360
- Title: EvalGIM: A Library for Evaluating Generative Image Models
- Title(参考訳): EvalGIM: 生成画像モデルを評価するライブラリ
- Authors: Melissa Hall, Oscar Mañas, Reyhane Askari, Mark Ibrahim, Candace Ross, Pietro Astolfi, Tariq Berrada Ifriqi, Marton Havasi, Yohann Benchetrit, Karen Ullrich, Carolina Braga, Abhishek Charnalia, Maeve Ryan, Mike Rabbat, Michal Drozdzal, Jakob Verbeek, Adriana Romero Soriano,
- Abstract要約: テキストから画像への生成モデルを評価するためのライブラリであるEvalGIMを紹介する。
EvalGIMは、品質、多様性、一貫性を測定するために使用されるデータセットとメトリクスを幅広くサポートする。
EvalGIMには、テキストから画像への生成モデルのための2つの新しい分析手法を導入する評価演習も含まれている。
- 参考スコア(独自算出の注目度): 26.59095053465281
- License:
- Abstract: As the use of text-to-image generative models increases, so does the adoption of automatic benchmarking methods used in their evaluation. However, while metrics and datasets abound, there are few unified benchmarking libraries that provide a framework for performing evaluations across many datasets and metrics. Furthermore, the rapid introduction of increasingly robust benchmarking methods requires that evaluation libraries remain flexible to new datasets and metrics. Finally, there remains a gap in synthesizing evaluations in order to deliver actionable takeaways about model performance. To enable unified, flexible, and actionable evaluations, we introduce EvalGIM (pronounced ''EvalGym''), a library for evaluating generative image models. EvalGIM contains broad support for datasets and metrics used to measure quality, diversity, and consistency of text-to-image generative models. In addition, EvalGIM is designed with flexibility for user customization as a top priority and contains a structure that allows plug-and-play additions of new datasets and metrics. To enable actionable evaluation insights, we introduce ''Evaluation Exercises'' that highlight takeaways for specific evaluation questions. The Evaluation Exercises contain easy-to-use and reproducible implementations of two state-of-the-art evaluation methods of text-to-image generative models: consistency-diversity-realism Pareto Fronts and disaggregated measurements of performance disparities across groups. EvalGIM also contains Evaluation Exercises that introduce two new analysis methods for text-to-image generative models: robustness analyses of model rankings and balanced evaluations across different prompt styles. We encourage text-to-image model exploration with EvalGIM and invite contributions at https://github.com/facebookresearch/EvalGIM/.
- Abstract(参考訳): テキストから画像への生成モデルの利用が増加するにつれて、評価に使用される自動ベンチマーク手法も採用される。
しかし、メトリクスとデータセットは多いが、多くのデータセットとメトリクスで評価を行うためのフレームワークを提供する統一ベンチマークライブラリはほとんどない。
さらに、ますます堅牢なベンチマーク手法が急速に導入されるためには、評価ライブラリが新しいデータセットやメトリクスに対してフレキシブルである必要がある。
最後に、モデルパフォーマンスに関する実用的なテイクアウトを提供するために、評価を合成するにはまだギャップがあります。
EvalGIM(「EvalGym」と発音する)は、画像生成モデルを評価するためのライブラリである。
EvalGIMは、テキストから画像への生成モデルの質、多様性、一貫性を測定するために使用されるデータセットとメトリクスを幅広くサポートする。
さらにEvalGIMは、ユーザのカスタマイズを最優先事項として、フレキシブルに設計されており、新しいデータセットとメトリクスのプラグアンドプレイの追加を可能にする構造を備えている。
実用的な評価インサイトを実現するために,特定の評価質問に対するテイクアウトをハイライトする「評価演習」を紹介した。
評価エクササイズは、テキスト・トゥ・イモージ・ジェネレーティブ・モデルの2つの最先端評価手法の、使い易く再現可能な実装を含んでいる。
EvalGIMはまた、テキストから画像への生成モデルに対する2つの新しい分析手法である、モデルランキングの堅牢性分析と異なるプロンプトスタイルでのバランス付けされた評価を導入するための評価エクササイズも導入している。
EvalGIMでテキストから画像へのモデル探索を推奨し、https://github.com/facebookresearch/EvalGIM/でコントリビューションを募集します。
関連論文リスト
- TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な"戦略基準"フォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの概念を紹介します。
本研究では,これらの概念を検索の強化と強化学習を通じて実装するTestAgentというエージェントベース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - GenEval: An Object-Focused Framework for Evaluating Text-to-Image
Alignment [26.785655363790312]
我々は、合成画像特性を評価するためのオブジェクト中心のフレームワークGenEvalを紹介する。
そこで本研究では,現在のオブジェクト検出モデルを用いてテキスト・ツー・イメージ・モデルの評価を行う。
次に、複数のオープンソーステキスト・ツー・イメージモデルを評価し、それらの相対的生成能力を解析する。
論文 参考訳(メタデータ) (2023-10-17T18:20:03Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Foundation Model-oriented Robustness: Robust Image Model Evaluation with Pretrained Models [38.16654407693728]
本稿では,サロゲートオラクルと比較して画像分類モデルの性能を直接測定する新しいロバストネス測定手法を提案する。
我々の新しい手法は、固定ベンチマークや制約付き摂動の制限なしに、モデルの堅牢性を評価する新しい方法を提供する。
論文 参考訳(メタデータ) (2023-08-21T11:07:27Z) - T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - Evaluation Metrics for Conditional Image Generation [100.69766435176557]
クラス条件画像生成設定において生成モデルを評価するための2つの新しい指標を提案する。
理論的分析は、提案されたメトリクスの背景にあるモチベーションを示し、新しいメトリクスと条件のないメトリクスを結びつける。
我々は,実験的な評価を行い,その指標を条件のない変種や他の指標と比較し,既存の生成モデルの解析に利用した。
論文 参考訳(メタデータ) (2020-04-26T12:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。