論文の概要: Holistic Evaluation of Text-To-Image Models
- arxiv url: http://arxiv.org/abs/2311.04287v1
- Date: Tue, 7 Nov 2023 19:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:53:54.830316
- Title: Holistic Evaluation of Text-To-Image Models
- Title(参考訳): テキスト・画像モデルの全体的評価
- Authors: Tony Lee, Michihiro Yasunaga, Chenlin Meng, Yifan Mai, Joon Sung Park,
Agrim Gupta, Yunzhi Zhang, Deepak Narayanan, Hannah Benita Teufel, Marco
Bellagente, Minguk Kang, Taesung Park, Jure Leskovec, Jun-Yan Zhu, Li
Fei-Fei, Jiajun Wu, Stefano Ermon, Percy Liang
- Abstract要約: 我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
- 参考スコア(独自算出の注目度): 153.47415461488097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The stunning qualitative improvement of recent text-to-image models has led
to their widespread attention and adoption. However, we lack a comprehensive
quantitative understanding of their capabilities and risks. To fill this gap,
we introduce a new benchmark, Holistic Evaluation of Text-to-Image Models
(HEIM). Whereas previous evaluations focus mostly on text-image alignment and
image quality, we identify 12 aspects, including text-image alignment, image
quality, aesthetics, originality, reasoning, knowledge, bias, toxicity,
fairness, robustness, multilinguality, and efficiency. We curate 62 scenarios
encompassing these aspects and evaluate 26 state-of-the-art text-to-image
models on this benchmark. Our results reveal that no single model excels in all
aspects, with different models demonstrating different strengths. We release
the generated images and human evaluation results for full transparency at
https://crfm.stanford.edu/heim/v1.1.0 and the code at
https://github.com/stanford-crfm/helm, which is integrated with the HELM
codebase.
- Abstract(参考訳): 最近のテキストから画像へのモデルの驚くべき質的改善は、彼らの注目と普及につながった。
しかし、その能力とリスクの包括的定量的な理解が欠けている。
このギャップを埋めるために、新しいベンチマークであるHolistic Evaluation of Text-to-Image Models (HEIM)を導入する。
従来の評価では,テキスト画像アライメント,画像品質,美学,独創性,推論,知識,バイアス,毒性,公平性,堅牢性,多言語性,効率性など12の側面を識別した。
これらの側面を含む62のシナリオをキュレートし、このベンチマークで26の最先端のテキスト画像モデルを評価する。
その結果,すべての面で優れたモデルがひとつも存在せず,異なるモデルが異なる強みを示していることが明らかとなった。
生成された画像と人による評価結果を、https://crfm.stanford.edu/heim/v1.1.0で、そして https://github.com/stanford-crfm/helmでリリースします。
関連論文リスト
- Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet
Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。
私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文 参考訳(メタデータ) (2023-10-13T16:53:25Z) - Uncertainty-Aware Multi-View Visual Semantic Embedding [0.5242869847419834]
画像テキスト検索における重要な課題は、視覚と言語データの類似性を測定するために意味情報を有効に活用することである。
本論文では,画像テキストマッチング全体を複数のビューテキストマッチングに分解する不確実性認識型ビジュアルセマンティック埋め込みフレームワークを提案する。
本フレームワークでは、各ビューテキスト対応における不確実性を適応的にモデル化することにより、各ビューテキスト損失の重み付けを計算するための不確実性認識損失関数(UALoss)を導入している。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual
and Semantic Credit Assignment [48.835298314274254]
生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。
高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。
これらのモデルの生成能力を、数百のサンプルで評価することができる。
論文 参考訳(メタデータ) (2023-08-16T17:26:47Z) - X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation
with Visual Large Language Models [17.67105465600566]
本稿では,X-IQEと呼ばれる新しい画像品質評価手法を提案する。
X-IQEは、視覚的大言語モデル(LLM)を使用して、テキストによる説明を生成することによって、テキストから画像への生成方法を評価する。
実際の画像と生成された画像を区別し、テキスト画像のアライメントを評価し、モデルトレーニングや微調整を必要とせずに画像の美学を評価する機能など、いくつかの利点がある。
論文 参考訳(メタデータ) (2023-05-18T09:56:44Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。