論文の概要: A Survey of Evaluation Metrics Used for NLG Systems
- arxiv url: http://arxiv.org/abs/2008.12009v2
- Date: Mon, 5 Oct 2020 17:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 07:43:43.248116
- Title: A Survey of Evaluation Metrics Used for NLG Systems
- Title(参考訳): NLGシステムにおける評価基準の検討
- Authors: Ananya B. Sai, Akash Kumar Mohankumar, Mitesh M. Khapra
- Abstract要約: Deep Learningの成功により、幅広い自然言語生成(NLG)タスクへの関心が高まった。
分類タスクとは異なり、NLGシステム自体を自動評価することは大きな課題である。
NLGモデルの増加と現在の指標の欠点は、2014年以降に提案された評価指標の急激な増加につながっている。
- 参考スコア(独自算出の注目度): 19.20118684502313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of Deep Learning has created a surge in interest in a wide a
range of Natural Language Generation (NLG) tasks. Deep Learning has not only
pushed the state of the art in several existing NLG tasks but has also
facilitated researchers to explore various newer NLG tasks such as image
captioning. Such rapid progress in NLG has necessitated the development of
accurate automatic evaluation metrics that would allow us to track the progress
in the field of NLG. However, unlike classification tasks, automatically
evaluating NLG systems in itself is a huge challenge. Several works have shown
that early heuristic-based metrics such as BLEU, ROUGE are inadequate for
capturing the nuances in the different NLG tasks. The expanding number of NLG
models and the shortcomings of the current metrics has led to a rapid surge in
the number of evaluation metrics proposed since 2014. Moreover, various
evaluation metrics have shifted from using pre-determined heuristic-based
formulae to trained transformer models. This rapid change in a relatively short
time has led to the need for a survey of the existing NLG metrics to help
existing and new researchers to quickly come up to speed with the developments
that have happened in NLG evaluation in the last few years. Through this
survey, we first wish to highlight the challenges and difficulties in
automatically evaluating NLG systems. Then, we provide a coherent taxonomy of
the evaluation metrics to organize the existing metrics and to better
understand the developments in the field. We also describe the different
metrics in detail and highlight their key contributions. Later, we discuss the
main shortcomings identified in the existing metrics and describe the
methodology used to evaluate evaluation metrics. Finally, we discuss our
suggestions and recommendations on the next steps forward to improve the
automatic evaluation metrics.
- Abstract(参考訳): Deep Learningの成功により、幅広い自然言語生成(NLG)タスクへの関心が高まった。
Deep Learningは、いくつかの既存のNLGタスクで最先端の技術を推し進めているだけでなく、画像キャプションなど、より新しいNLGタスクの探索も促している。
NLGの急速な進歩は、NLGの分野における進歩を追跡するための正確な自動評価指標の開発を必要としている。
しかし、分類タスクとは異なり、NLGシステム自体を自動評価することは大きな課題である。
いくつかの研究により、BLEUやROUGEのような初期のヒューリスティックなメトリクスは、異なるNLGタスクのニュアンスを捉えるのに不十分であることが示されている。
nlgモデルの増加と現在のメトリクスの欠点により、2014年以降に提案された評価メトリクスの数は急増している。
さらに、様々な評価指標が事前決定されたヒューリスティック式から訓練されたトランスモデルに移行した。
この比較的短期間の急激な変化は、既存のNLGメトリクスを調査し、既存の研究者や新しい研究者が、過去数年間にNLGの評価で起こった開発を迅速に進めるために役立てる必要があることに繋がった。
本調査ではまず,NLGシステムの自動評価における課題と課題を明らかにする。
次に,評価指標のコヒーレント分類を行い,既存の指標を整理し,この分野の発展をよりよく理解する。
また、さまざまなメトリクスを詳細に説明し、彼らの重要な貢献を強調します。
その後、既存の指標で確認された主な欠点について論じ、評価指標の評価に使用する方法論について述べる。
最後に, 自動評価指標の改善に向けた次のステップとして, 提案と推奨について述べる。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - LLM-based NLG Evaluation: Current Status and Challenges [41.69249290537395]
自然言語生成(NLG)を評価することは、人工知能において不可欠だが難しい問題である。
大規模言語モデル (LLM) は近年, NLG 評価において大きな可能性を示している。
LLMに基づく各種自動評価手法が提案されている。
論文 参考訳(メタデータ) (2024-02-02T13:06:35Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation
Practices for Generated Text [23.119724118572538]
自然言語生成(NLG)における評価手法には多くの既知の欠陥があるが、改良された評価手法が広く採用されることは稀である。
本稿では,人間と自動モデル評価の問題と,NLGでよく使用されるデータセットについて検討する。
論文 参考訳(メタデータ) (2022-02-14T18:51:07Z) - The GEM Benchmark: Natural Language Generation, its Evaluation and
Metrics [66.96150429230035]
我々は、自然言語生成(NLG)のための生きたベンチマークであるGEM、その評価、およびメトリクスを紹介する。
ベンチマークの定期的なアップデートにより、NLGの研究はより多言語化され、モデルとともに課題を進化させる。
論文 参考訳(メタデータ) (2021-02-02T18:42:05Z) - Evaluation of Text Generation: A Survey [107.62760642328455]
本稿は,ここ数年で開発された自然言語生成システムの評価手法について調査する。
我々は,NLG評価手法を,(1)人間中心評価指標,(2)訓練を必要としない自動評価指標,(3)機械学習指標の3つのカテゴリに分類した。
論文 参考訳(メタデータ) (2020-06-26T04:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。