論文の概要: Order in the Evaluation Court: A Critical Analysis of NLG Evaluation Trends
- arxiv url: http://arxiv.org/abs/2601.07648v1
- Date: Mon, 12 Jan 2026 15:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.511977
- Title: Order in the Evaluation Court: A Critical Analysis of NLG Evaluation Trends
- Title(参考訳): 評価裁判所の命令:NLG評価動向の批判的分析
- Authors: Jing Yang, Nils Feldhus, Salar Mohtaj, Leonhard Hennig, Qianli Wang, Eleni Metheniti, Sherzod Hakimov, Charlott Jakob, Veronika Solopova, Konrad Rieck, David Schlangen, Sebastian Möller, Vera Schmitt,
- Abstract要約: 我々は,自然言語生成論文から重要な情報を集めるために,自動情報抽出方式を採用している。
主要な4つのカンファレンスの14,171件の論文から抽出したメタデータから,いくつかの重要な結果が得られた。
我々は,今後のNLG評価の厳格性を改善するために,実践的な勧告を導出する。
- 参考スコア(独自算出の注目度): 28.57713768151471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in Natural Language Generation (NLG), evaluation remains challenging. Although various new metrics and LLM-as-a-judge (LaaJ) methods are proposed, human judgment persists as the gold standard. To systematically review how NLG evaluation has evolved, we employ an automatic information extraction scheme to gather key information from NLG papers, focusing on different evaluation methods (metrics, LaaJ and human evaluation). With extracted metadata from 14,171 papers across four major conferences (ACL, EMNLP, NAACL, and INLG) over the past six years, we reveal several critical findings: (1) Task Divergence: While Dialogue Generation demonstrates a rapid shift toward LaaJ (>40% in 2025), Machine Translation remains locked into n-gram metrics, and Question Answering exhibits a substantial decline in the proportion of studies conducting human evaluation. (2) Metric Inertia: Despite the development of semantic metrics, general-purpose metrics (e.g., BLEU, ROUGE) continue to be widely used across tasks without empirical justification, often lacking the discriminative power to distinguish between specific quality criteria. (3) Human-LaaJ Divergence: Our association analysis challenges the assumption that LLMs act as mere proxies for humans; LaaJ and human evaluations prioritize very different signals, and explicit validation is scarce (<8% of papers comparing the two), with only moderate to low correlation. Based on these observations, we derive practical recommendations to improve the rigor of future NLG evaluation.
- Abstract(参考訳): 自然言語生成(NLG)の進歩にもかかわらず、評価は依然として困難である。
様々な新しい指標と LLM-as-a-judge (LaaJ) 法が提案されているが、人間の判断はゴールドスタンダードとして維持されている。
NLGの評価がどう発展したかを体系的にレビューするため,NLG論文から重要情報を収集する自動情報抽出手法を用いて,異なる評価手法(測定値,LaaJ,人体評価)に着目した。
過去6年間の4つの主要な会議(ACL, EMNLP, NAACL, INLG)における14,171件の論文から抽出したメタデータから,(1)タスクの多様性: 対話生成がLaaJ(2025年には40パーセント)への急速なシフトを示し,機械翻訳はn-gramメトリクスに固定され,質問応答は人間の評価を行う研究の割合において著しく低下していることを示す。
2)メトリクス慣性(Metric Inertia): セマンティックメトリクスの開発にもかかわらず、汎用メトリクス(BLEU、ROUGEなど)は経験的正当化のないタスクで広く使われ続けており、しばしば特定の品質基準を区別する識別力に欠ける。
(3)人間とLaaJの相違:LLMが人間にとって単なるプロキシとして振る舞うという仮定に挑戦し,LaaJと人的評価は極めて異なるシグナルを優先し,明確な検証は少ない(2つを比較した論文の8%)。
これらの結果をもとに,今後のNLG評価の厳格化を図るための実践的勧告を導出する。
関連論文リスト
- A Dual-Perspective NLG Meta-Evaluation Framework with Automatic Benchmark and Better Interpretability [36.83105355430611]
本稿では,異なる評価機能に着目したデュアルパースペクティブなNLGメタ評価フレームワークを提案する。
また、新しい人的アノテーションを必要とせず、対応するベンチマークを自動的に構築する手法も導入する。
論文 参考訳(メタデータ) (2025-02-17T17:22:49Z) - Themis: A Reference-free NLG Evaluation Language Model with Flexibility and Interpretability [39.12792986841385]
本稿では,人間とGPT-4のアノテーションを用いた大規模NLG評価コーパスNLG-Evalを構築した。
また,NLG 評価専用の LLM を提案する。この LLM は,設計した多視点整合性検証と評価指向の選好アライメント手法を用いて訓練されている。
Themis は様々な NLG タスクに対して優れた評価性能を示し、同時に未確認タスクを一般化し、GPT-4 など他の評価モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-26T14:04:29Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。