論文の概要: All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated
Text
- arxiv url: http://arxiv.org/abs/2107.00061v1
- Date: Wed, 30 Jun 2021 19:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-03 04:15:09.762891
- Title: All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated
Text
- Title(参考訳): その「人間」は金ではない: 生成されたテキストの人間評価
- Authors: Elizabeth Clark, Tal August, Sofia Serrano, Nikita Haduong, Suchin
Gururangan, Noah A. Smith
- Abstract要約: 我々は、人間と機械によるテキストを区別する非専門家の能力を評価する研究を行っている。
トレーニングなしでは、GPT3--と人間によるテキストをランダムな確率レベルで区別する評価器があることが判明した。
- 参考スコア(独自算出の注目度): 46.260544251940125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human evaluations are typically considered the gold standard in natural
language generation, but as models' fluency improves, how well can evaluators
detect and judge machine-generated text? We run a study assessing non-experts'
ability to distinguish between human- and machine-authored text (GPT2 and GPT3)
in three domains (stories, news articles, and recipes). We find that, without
training, evaluators distinguished between GPT3- and human-authored text at
random chance level. We explore three approaches for quickly training
evaluators to better identify GPT3-authored text (detailed instructions,
annotated examples, and paired examples) and find that while evaluators'
accuracy improved up to 55%, it did not significantly improve across the three
domains. Given the inconsistent results across text domains and the often
contradictory reasons evaluators gave for their judgments, we examine the role
untrained human evaluations play in NLG evaluation and provide recommendations
to NLG researchers for improving human evaluations of text generated from
state-of-the-art models.
- Abstract(参考訳): 自然言語生成において、人間の評価は一般的に金本位と見なされるが、モデルの流動性が向上するにつれて、エバリュエータはマシン生成テキストをどの程度検出し判断できるか?
我々は,3つのドメイン(文献,ニュース記事,レシピ)において,人間と機械によるテキスト(GPT2,GPT3)を区別する非専門家の能力を評価する。
トレーニングなしでは、GPT3と人間によるテキストをランダムな確率レベルで区別できる。
我々は,GPT3によるテキスト(詳細な説明,注釈例,ペア例)の同定を迅速に行うための3つのアプローチを探索し,評価者の精度が55%向上する一方,3つの領域間では顕著な改善は得られなかった。
テキスト領域間での矛盾する結果と、評価者が判断した矛盾する理由を考慮し、NLG評価における非トレーニングヒト評価の役割を検証し、最先端のモデルから生成されたテキストの人間評価を改善するために、NLG研究者に推奨する。
関連論文リスト
- X-Eval: Generalizable Multi-aspect Text Evaluation via Augmented Instruction Tuning with Auxiliary Evaluation Aspects [32.50977115108103]
X-Evalは、エンドユーザーがカスタマイズした視覚的側面と見えない側面の両方でテキストを評価するための2段階のインストラクションチューニングフレームワークである。
X-Evalは2つの学習段階から構成されており、モデルの性能を向上させるバニラ命令チューニング段階と、微粒化評価面間の接続を利用してテキスト品質を評価する拡張命令チューニング段階である。
論文 参考訳(メタデータ) (2023-11-15T09:01:55Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Human-like Summarization Evaluation with ChatGPT [38.39767193442397]
ChatGPTは、Likertスケールスコアリング、ペアワイズ比較、ピラミッド、バイナリ事実性評価を用いて比較的スムーズにアノテーションを補完することができた。
これは、一部のデータセットで一般的に使用される自動評価指標よりも優れていた。
論文 参考訳(メタデータ) (2023-04-05T16:17:32Z) - Toward Verifiable and Reproducible Human Evaluation for Text-to-Image
Generation [35.8129864412223]
本稿では,標準化されたヒューマン評価プロトコルを提案する。
本研究では,現在の自動測定法が人間の知覚と相容れないことを実験的に示す。
人間の評価実験を確実かつ決定的に設計するための洞察を提供する。
論文 参考訳(メタデータ) (2023-04-04T14:14:16Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - Evaluation of Text Generation: A Survey [107.62760642328455]
本稿は,ここ数年で開発された自然言語生成システムの評価手法について調査する。
我々は,NLG評価手法を,(1)人間中心評価指標,(2)訓練を必要としない自動評価指標,(3)機械学習指標の3つのカテゴリに分類した。
論文 参考訳(メタデータ) (2020-06-26T04:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。