論文の概要: Evaluation Revisited: A Taxonomy of Evaluation Concerns in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2604.25923v1
- Date: Wed, 01 Apr 2026 10:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.222615
- Title: Evaluation Revisited: A Taxonomy of Evaluation Concerns in Natural Language Processing
- Title(参考訳): 評価の再考:自然言語処理における評価に関する分類
- Authors: Ruchira Dhar, Anders Søgaard,
- Abstract要約: 本稿では,自然言語処理における評価に関する研究のスコーピングレビューを行う。
我々は、地域ごとに、分類学、反復的な位置、トレードオフを開発する。
現代の議論をその歴史的文脈内に配置することで、この研究は評価実践についての推論のための統合された参照を提供する。
- 参考スコア(独自算出の注目度): 37.61261523184044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have prompted a growing body of work that questions the methodology of prevailing evaluation practices. However, many such critiques have already been extensively debated in natural language processing (NLP): a field with a long history of methodological reflection on evaluation. We conduct a scoping review of research on evaluation concerns in NLP and develop a taxonomy, synthesizing recurring positions and trade-offs within each area. We also discuss practical implications of the taxonomy, including a structured checklist to support more deliberate evaluation design and interpretation. By situating contemporary debates within their historical context, this work provides a consolidated reference for reasoning about evaluation practices.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、一般的な評価プラクティスの方法論に疑問を呈する活動の活発化を招いている。
しかし、このような批判は自然言語処理(NLP)において既に広く議論されており、評価に関する方法論的考察の長い歴史を持つ分野である。
我々は、NLPの評価に関する研究のスコーピングレビューを行い、各領域における反復的な位置とトレードオフを合成し、分類学を開発する。
我々はまた、より故意な評価設計と解釈を支援する構造的チェックリストを含む、分類学の実践的意味についても論じる。
現代の議論をその歴史的文脈内に配置することで、この研究は評価実践についての推論のための統合された参照を提供する。
関連論文リスト
- Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - Evaluating Step-by-step Reasoning Traces: A Survey [8.279021694489462]
ステップバイステップ推論は、複雑な問題における大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
既存の評価プラクティスは非常に一貫性がなく、その結果、評価器の設計とベンチマーク開発の間に断片的な進歩をもたらす。
本調査は,4つのトップレベルカテゴリー(実効性,妥当性,一貫性,実用性)による評価基準の分類について提案する。
論文 参考訳(メタデータ) (2025-02-17T19:58:31Z) - Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks [3.773596042872403]
大規模言語モデル(LLM)は進化を続けており、堅牢で標準化された評価ベンチマークの必要性が最重要である。
さまざまなフレームワークがこの分野への注目すべき貢献として現れ、包括的な評価テストとベンチマークを提供している。
本稿では,これらの評価手法の探索と批判的分析を行い,その強度,限界,および自然言語処理における最先端の進展に対する影響について述べる。
論文 参考訳(メタデータ) (2024-07-29T03:37:14Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Deconstructing NLG Evaluation: Evaluation Practices, Assumptions, and
Their Implications [85.24952708195582]
本研究では,NLG評価を形作る目標,コミュニティプラクティス,前提,制約について検討する。
その影響と倫理的考察の具体化について検討する。
論文 参考訳(メタデータ) (2022-05-13T18:00:11Z) - How to Evaluate Your Dialogue Models: A Review of Approaches [2.7834038784275403]
まず,評価手法を3つのクラス,すなわち自動評価,人間関係評価,ユーザシミュレータによる評価に分割する。
また,対話手法の評価に適したベンチマークの存在についても詳細に論じている。
論文 参考訳(メタデータ) (2021-08-03T08:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。