論文の概要: Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation
Practices for Generated Text
- arxiv url: http://arxiv.org/abs/2202.06935v1
- Date: Mon, 14 Feb 2022 18:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 14:09:33.849956
- Title: Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation
Practices for Generated Text
- Title(参考訳): クラックド・ファウンデーションの修復:生成テキストの評価実践における障害調査
- Authors: Sebastian Gehrmann, Elizabeth Clark, Thibault Sellam
- Abstract要約: 自然言語生成(NLG)における評価手法には多くの既知の欠陥があるが、改良された評価手法が広く採用されることは稀である。
本稿では,人間と自動モデル評価の問題と,NLGでよく使用されるデータセットについて検討する。
- 参考スコア(独自算出の注目度): 23.119724118572538
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Evaluation practices in natural language generation (NLG) have many known
flaws, but improved evaluation approaches are rarely widely adopted. This issue
has become more urgent, since neural NLG models have improved to the point
where they can often no longer be distinguished based on the surface-level
features that older metrics rely on. This paper surveys the issues with human
and automatic model evaluations and with commonly used datasets in NLG that
have been pointed out over the past 20 years. We summarize, categorize, and
discuss how researchers have been addressing these issues and what their
findings mean for the current state of model evaluations. Building on those
insights, we lay out a long-term vision for NLG evaluation and propose concrete
steps for researchers to improve their evaluation processes. Finally, we
analyze 66 NLG papers from recent NLP conferences in how well they already
follow these suggestions and identify which areas require more drastic changes
to the status quo.
- Abstract(参考訳): 自然言語生成(nlg)の評価手法には多くの既知の欠陥があるが、改善された評価アプローチが広く採用されることはまれである。
ニューラルなNLGモデルは、古いメトリクスが依存している表面レベルの機能に基づいて区別できないように改善されているため、この問題はさらに緊急になっている。
本稿では,人間と自動モデル評価の問題と,過去20年間に指摘されてきたNLGの一般的なデータセットについて検討する。
我々は,これらの問題に対する研究者の取り組みと,モデル評価の現状にどのような意味があるのかを要約し,分類し,議論する。
これらの知見に基づいて,NLG評価の長期的ビジョンを策定し,研究者が評価プロセスを改善するための具体的なステップを提案する。
最後に,最近のnlpカンファレンスの66のnlg論文を分析し,これらの提案をすでに順守しているかを分析し,現状の大幅な変更が必要な領域を特定する。
関連論文リスト
- Themis: A Reference-free NLG Evaluation Language Model with Flexibility and Interpretability [39.12792986841385]
本稿では,人間とGPT-4のアノテーションを用いた大規模NLG評価コーパスNLG-Evalを構築した。
また,NLG 評価専用の LLM を提案する。この LLM は,設計した多視点整合性検証と評価指向の選好アライメント手法を用いて訓練されている。
Themis は様々な NLG タスクに対して優れた評価性能を示し、同時に未確認タスクを一般化し、GPT-4 など他の評価モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-26T14:04:29Z) - Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。
AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。
我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文 参考訳(メタデータ) (2024-05-23T14:48:15Z) - LLM-based NLG Evaluation: Current Status and Challenges [41.69249290537395]
自然言語生成(NLG)を評価することは、人工知能において不可欠だが難しい問題である。
大規模言語モデル (LLM) は近年, NLG 評価において大きな可能性を示している。
LLMに基づく各種自動評価手法が提案されている。
論文 参考訳(メタデータ) (2024-02-02T13:06:35Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Near-Negative Distinction: Giving a Second Life to Human Evaluation
Datasets [95.4182455942628]
本研究では,従来のアノテーションをNNDテストに再利用するNear-Negative Distinction(NND)を提案する。
NNDテストでは、NLGモデルは既知の誤りのあるほぼ負の候補よりも高品質な出力候補に高い確率で配置しなければならない。
NND は標準的な NLG 評価指標よりも,人間の判断との相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-13T20:02:53Z) - Deconstructing NLG Evaluation: Evaluation Practices, Assumptions, and
Their Implications [85.24952708195582]
本研究では,NLG評価を形作る目標,コミュニティプラクティス,前提,制約について検討する。
その影響と倫理的考察の具体化について検討する。
論文 参考訳(メタデータ) (2022-05-13T18:00:11Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z) - A Survey of Evaluation Metrics Used for NLG Systems [19.20118684502313]
Deep Learningの成功により、幅広い自然言語生成(NLG)タスクへの関心が高まった。
分類タスクとは異なり、NLGシステム自体を自動評価することは大きな課題である。
NLGモデルの増加と現在の指標の欠点は、2014年以降に提案された評価指標の急激な増加につながっている。
論文 参考訳(メタデータ) (2020-08-27T09:25:05Z) - Evaluation of Text Generation: A Survey [107.62760642328455]
本稿は,ここ数年で開発された自然言語生成システムの評価手法について調査する。
我々は,NLG評価手法を,(1)人間中心評価指標,(2)訓練を必要としない自動評価指標,(3)機械学習指標の3つのカテゴリに分類した。
論文 参考訳(メタデータ) (2020-06-26T04:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。