論文の概要: NLG Evaluation: Past, Present, Future
- arxiv url: http://arxiv.org/abs/2605.23715v1
- Date: Fri, 22 May 2026 14:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.401044
- Title: NLG Evaluation: Past, Present, Future
- Title(参考訳): NLGの評価:過去、現在、未来
- Authors: Ehud Reiter,
- Abstract要約: 自然言語生成(NLG)の評価は1990年以来劇的に変化している。
2026年、NLGが機械学習と密接に関連している場合、実験的な評価が期待される。
- 参考スコア(独自算出の注目度): 5.960177344012077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Generation (NLG) evaluation has changed dramatically since 1990, and will continue to evolve in the future. In 1990, when NLG had close ties to linguistics, there was very little formal experimental evaluation in the modern sense. In 2026, when NLG is closely linked to machine learning, experimental evaluation is expected and indeed fundamental to research. Many evaluation techniques were developed over this period, including most recently LLM-as-Judge. I expect NLG evaluation will continue to evolve in the future. In particular, impact, qualitative, and safety evaluation will become more important as large numbers of people routinely use NLG technology.
- Abstract(参考訳): 自然言語生成(NLG)の評価は1990年以降劇的に変化しており、今後も発展を続ける予定である。
1990年、NLGは言語学と密接な関係を持っていたが、現代の意味での正式な実験的な評価はほとんどなかった。
2026年、NLGが機械学習と密接に結びついている場合、実験的な評価が期待され、研究に実際に不可欠である。
最近ではLSM-as-Judgeを含む多くの評価技術が開発されている。
NLGの評価は今後も進化し続けるだろう」と述べた。
特に、多くの人々が日常的にNLG技術を使っているため、影響、質的、安全性の評価がより重要になる。
関連論文リスト
- Order in the Evaluation Court: A Critical Analysis of NLG Evaluation Trends [28.57713768151471]
我々は,自然言語生成論文から重要な情報を集めるために,自動情報抽出方式を採用している。
主要な4つのカンファレンスの14,171件の論文から抽出したメタデータから,いくつかの重要な結果が得られた。
我々は,今後のNLG評価の厳格性を改善するために,実践的な勧告を導出する。
論文 参考訳(メタデータ) (2026-01-12T15:27:58Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - LLM-based NLG Evaluation: Current Status and Challenges [38.861583758149294]
大規模言語モデル (LLM) はNLG評価において大きな可能性を証明している。
LLMに基づく各種自動評価手法が提案されている。
論文 参考訳(メタデータ) (2024-02-02T13:06:35Z) - Near-Negative Distinction: Giving a Second Life to Human Evaluation
Datasets [95.4182455942628]
本研究では,従来のアノテーションをNNDテストに再利用するNear-Negative Distinction(NND)を提案する。
NNDテストでは、NLGモデルは既知の誤りのあるほぼ負の候補よりも高品質な出力候補に高い確率で配置しなければならない。
NND は標準的な NLG 評価指標よりも,人間の判断との相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-13T20:02:53Z) - Deconstructing NLG Evaluation: Evaluation Practices, Assumptions, and
Their Implications [85.24952708195582]
本研究では,NLG評価を形作る目標,コミュニティプラクティス,前提,制約について検討する。
その影響と倫理的考察の具体化について検討する。
論文 参考訳(メタデータ) (2022-05-13T18:00:11Z) - Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation
Practices for Generated Text [23.119724118572538]
自然言語生成(NLG)における評価手法には多くの既知の欠陥があるが、改良された評価手法が広く採用されることは稀である。
本稿では,人間と自動モデル評価の問題と,NLGでよく使用されるデータセットについて検討する。
論文 参考訳(メタデータ) (2022-02-14T18:51:07Z) - The GEM Benchmark: Natural Language Generation, its Evaluation and
Metrics [66.96150429230035]
我々は、自然言語生成(NLG)のための生きたベンチマークであるGEM、その評価、およびメトリクスを紹介する。
ベンチマークの定期的なアップデートにより、NLGの研究はより多言語化され、モデルとともに課題を進化させる。
論文 参考訳(メタデータ) (2021-02-02T18:42:05Z) - A Survey of Evaluation Metrics Used for NLG Systems [19.20118684502313]
Deep Learningの成功により、幅広い自然言語生成(NLG)タスクへの関心が高まった。
分類タスクとは異なり、NLGシステム自体を自動評価することは大きな課題である。
NLGモデルの増加と現在の指標の欠点は、2014年以降に提案された評価指標の急激な増加につながっている。
論文 参考訳(メタデータ) (2020-08-27T09:25:05Z) - Evaluation of Text Generation: A Survey [107.62760642328455]
本稿は,ここ数年で開発された自然言語生成システムの評価手法について調査する。
我々は,NLG評価手法を,(1)人間中心評価指標,(2)訓練を必要としない自動評価指標,(3)機械学習指標の3つのカテゴリに分類した。
論文 参考訳(メタデータ) (2020-06-26T04:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。