論文の概要: Toward Verifiable and Reproducible Human Evaluation for Text-to-Image
Generation
- arxiv url: http://arxiv.org/abs/2304.01816v1
- Date: Tue, 4 Apr 2023 14:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 13:40:11.951933
- Title: Toward Verifiable and Reproducible Human Evaluation for Text-to-Image
Generation
- Title(参考訳): テキスト・画像生成のための検証と再現性評価に向けて
- Authors: Mayu Otani, Riku Togashi, Yu Sawai, Ryosuke Ishigami, Yuta Nakashima,
Esa Rahtu, Janne Heikkil\"a, Shin'ichi Satoh
- Abstract要約: 本稿では,標準化されたヒューマン評価プロトコルを提案する。
本研究では,現在の自動測定法が人間の知覚と相容れないことを実験的に示す。
人間の評価実験を確実かつ決定的に設計するための洞察を提供する。
- 参考スコア(独自算出の注目度): 35.8129864412223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human evaluation is critical for validating the performance of text-to-image
generative models, as this highly cognitive process requires deep comprehension
of text and images. However, our survey of 37 recent papers reveals that many
works rely solely on automatic measures (e.g., FID) or perform poorly described
human evaluations that are not reliable or repeatable. This paper proposes a
standardized and well-defined human evaluation protocol to facilitate
verifiable and reproducible human evaluation in future works. In our pilot data
collection, we experimentally show that the current automatic measures are
incompatible with human perception in evaluating the performance of the
text-to-image generation results. Furthermore, we provide insights for
designing human evaluation experiments reliably and conclusively. Finally, we
make several resources publicly available to the community to facilitate easy
and fast implementations.
- Abstract(参考訳): この高い認知過程は、テキストと画像の深い理解を必要とするため、人間の評価は、テキストから画像への生成モデルの性能を検証する上で重要である。
しかし,最近の研究37の研究では,自動測定(fidなど)にのみ依存する作品や,信頼性や再現性に乏しい記述の少ない評価結果が多数報告されている。
本稿では,検証可能かつ再現可能な今後の作業における人間評価を容易にするための標準化された人間評価プロトコルを提案する。
パイロットデータ収集において, テキスト対画像生成結果の性能評価において, 現在の自動計測は人間の知覚と相容れないことを実験的に示す。
さらに,人間評価実験を確実かつ決定的に設計するための洞察を提供する。
最後に、簡単で高速な実装を容易にするために、いくつかのリソースをコミュニティに公開しています。
関連論文リスト
- Optimizing the role of human evaluation in LLM-based spoken document summarization systems [0.0]
生成AIコンテンツに適した音声文書要約のための評価パラダイムを提案する。
実験設計における堅牢性, 再現性, 信頼性を確保するために, 詳細な評価基準とベストプラクティスガイドラインを提供する。
論文 参考訳(メタデータ) (2024-10-23T18:37:14Z) - Holistic Evaluation for Interleaved Text-and-Image Generation [19.041251355695973]
我々はインターリーブドベンチ(InterleavedBench)について紹介する。
また、GPT-4oをベースとした強力な基準フリーメトリックであるInterleavedEvalを提案し、正確で説明可能な評価を行う。
論文 参考訳(メタデータ) (2024-06-20T18:07:19Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - GPTScore: Evaluate as You Desire [40.111346987131974]
本稿では,生成事前学習モデルから創発的能力(ゼロショット命令など)を利用して生成したテキストをスコアする新しい評価フレームワークGPTScoreを提案する。
4つのテキスト生成タスク、22の評価側面、およびそれに対応する37のデータセットに関する実験結果から、GPTScoreは、自然言語命令だけでテキストに対して評価したいことを効果的に実現できることを示した。
論文 参考訳(メタデータ) (2023-02-08T16:17:29Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Human or Machine: Automating Human Likeliness Evaluation of NLG Texts [0.0]
そこで,本研究では,人間によって書かれたように思われる手法を用いて,出力サンプルのパーセンテージを示す,人間の類似度スコアを提案する。
以下に示すように、本評価手法の最適設定を見つけるために、人書きテキストと機械生成テキストの実証分析を行う。
論文 参考訳(メタデータ) (2020-06-05T00:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。