論文の概要: GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation
- arxiv url: http://arxiv.org/abs/2406.13743v3
- Date: Sun, 03 Nov 2024 20:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:45:28.418634
- Title: GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation
- Title(参考訳): GenAI-Bench: コンポジションテキスト・ツー・ビジュアル・ジェネレーションの評価と改善
- Authors: Baiqi Li, Zhiqiu Lin, Deepak Pathak, Jiayao Li, Yixin Fei, Kewen Wu, Tiffany Ling, Xide Xia, Pengchuan Zhang, Graham Neubig, Deva Ramanan,
- Abstract要約: VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。
VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。
我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
- 参考スコア(独自算出の注目度): 103.3465421081531
- License:
- Abstract: While text-to-visual models now produce photo-realistic images and videos, they struggle with compositional text prompts involving attributes, relationships, and higher-order reasoning such as logic and comparison. In this work, we conduct an extensive human study on GenAI-Bench to evaluate the performance of leading image and video generation models in various aspects of compositional text-to-visual generation. We also compare automated evaluation metrics against our collected human ratings and find that VQAScore -- a metric measuring the likelihood that a VQA model views an image as accurately depicting the prompt -- significantly outperforms previous metrics such as CLIPScore. In addition, VQAScore can improve generation in a black-box manner (without finetuning) via simply ranking a few (3 to 9) candidate images. Ranking by VQAScore is 2x to 3x more effective than other scoring methods like PickScore, HPSv2, and ImageReward at improving human alignment ratings for DALL-E 3 and Stable Diffusion, especially on compositional prompts that require advanced visio-linguistic reasoning. We release a new GenAI-Rank benchmark with over 40,000 human ratings to evaluate scoring metrics on ranking images generated from the same prompt. Lastly, we discuss promising areas for improvement in VQAScore, such as addressing fine-grained visual details. We will release all human ratings (over 80,000) to facilitate scientific benchmarking of both generative models and automated metrics.
- Abstract(参考訳): テキスト・トゥ・ビジュアル・モデルは今やフォトリアリスティックな画像やビデオを生成するが、属性、関係性、論理や比較のような高次推論を含む合成テキストプロンプトに苦慮している。
本研究では,GenAI-Benchに関する広範な人間研究を行い,合成テキスト・視覚生成の様々な側面において,先行画像・映像生成モデルの性能を評価する。
また、収集した人間の評価値と自動評価指標を比較し、VQAモデルが画像をプロンプトを正確に表現しているとみなす可能性を測定するメトリクスであるVQAScoreが、CLIPScoreなどの従来の指標を大幅に上回っていることを発見した。
さらに、VQAScoreは(微調整なしで)ブラックボックス方式で生成を改善することができる。
VQAScoreのランク付けは、DALL-E 3やStable Diffusionの人間のアライメント評価を改善するために、PickScore、HPSv2、ImageRewardなどの他のスコア法よりも2倍から3倍効果的である。
我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
最後に,VQAScoreの改良を期待する領域について論じる。
私たちは、生成モデルと自動メトリクスの両方の科学的ベンチマークを容易にするために、すべての人間格付け(8万以上)をリリースします。
関連論文リスト
- TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - Evaluating Text-to-Visual Generation with Image-to-Text Generation [113.07368313330994]
VQAScore(VQAScore)は、アライメントスコアを生成するビジュアル・クエクション・アンサーリング(VQA)モデルである。
これは、多くの(8)画像テキストアライメントベンチマークで最先端の結果を生成する。
我々は1,600の合成テキストプロンプトを備えたより難しいベンチマークであるGenAI-Benchを紹介する。
論文 参考訳(メタデータ) (2024-04-01T17:58:06Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - ImagenHub: Standardizing the evaluation of conditional image generation
models [48.51117156168]
本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。
本研究では,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。
人間の評価は,0.4以上の値を持つ76%のモデル上で,クリッペンドルフのαに対する高い労働者間合意を達成する。
論文 参考訳(メタデータ) (2023-10-02T19:41:42Z) - Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation [96.74302670358145]
生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
論文 参考訳(メタデータ) (2023-07-18T16:33:30Z) - X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation
with Visual Large Language Models [17.67105465600566]
本稿では,X-IQEと呼ばれる新しい画像品質評価手法を提案する。
X-IQEは、視覚的大言語モデル(LLM)を使用して、テキストによる説明を生成することによって、テキストから画像への生成方法を評価する。
実際の画像と生成された画像を区別し、テキスト画像のアライメントを評価し、モデルトレーニングや微調整を必要とせずに画像の美学を評価する機能など、いくつかの利点がある。
論文 参考訳(メタデータ) (2023-05-18T09:56:44Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。