論文の概要: BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation
- arxiv url: http://arxiv.org/abs/2110.09147v1
- Date: Mon, 18 Oct 2021 10:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 02:58:21.983216
- Title: BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation
- Title(参考訳): BEAMetrics: 言語生成評価評価のためのベンチマーク
- Authors: Thomas Scialom and Felix Hill
- Abstract要約: 自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
- 参考スコア(独自算出の注目度): 16.81712151903078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language processing (NLP) systems are increasingly trained to
generate open-ended text rather than classifying between responses. This makes
research on evaluation metrics for generated language -- functions that score
system output given the context and/or human reference responses -- of critical
importance. However, different metrics have different strengths and biases, and
reflect human intuitions better on some tasks than others. There is currently
no simple, unified way to compare, analyse or evaluate metrics across a
representative set of tasks. Here, we describe the Benchmark to Evaluate
Automatic Metrics (BEAMetrics), a resource to make research into new metrics
itself easier to evaluate. BEAMetrics users can quickly compare existing and
new metrics with human judgements across a diverse set of tasks, quality
dimensions (fluency vs. coherence vs. informativeness etc), and languages. As
generation experts might predict, BEAMetrics reveals stark task-dependent
differences between existing metrics, and consistently poor performance on
tasks with complex answer spaces or high reliance on general knowledge. While
this analysis highlights a critical issue facing current research practice,
BEAMetrics also contribute to its resolution by facilitating research into
better metrics -- particularly those that can account for the complex
interaction between context and general knowledge inherent to many modern NLP
applications. BEAMetrics is available under the MIT License:
https://github.com/ThomasScialom/BEAMetrics
- Abstract(参考訳): 自然言語処理(NLP)システムは、応答の分類よりもオープンなテキストを生成するように訓練されている。
これにより、コンテキストやヒューマンリファレンス応答によってシステム出力をスコアする機能である生成言語の評価メトリクスの研究が重要な意味を持つ。
しかし、異なるメトリクスは異なる強みとバイアスを持ち、人間の直観を他のタスクよりもよく反映する。
現在、代表的タスク全体にわたってメトリクスを比較し、分析し、評価する、シンプルで統一的な方法はありません。
ここでは、新しいメトリクス自体を評価しやすくするリソースであるBEAMetrics(Benchmark to Evaluate Automatic Metrics)について説明する。
BEAMetricsのユーザは、既存のメトリクスと新しいメトリクスを、さまざまなタスク、品質次元(頻度対コヒーレンス対情報性など)、言語で人間の判断と素早く比較することができます。
ジェネレーションの専門家が予想するとおり、beametricsは既存のメトリクス間のタスク依存的な違いを明らかにし、複雑な回答空間や一般的な知識への依存度が高いタスクのパフォーマンスを一貫して低下させる。
この分析は、現在の研究慣行に直面する重要な問題を浮き彫りにしていますが、BEAMetricsは、より良いメトリクスの研究を促進することで、その解決にも貢献しています。
BEAMetricsはMITライセンス下で利用可能である。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation [27.129551973093008]
InfoLMは、文字列ベースのメトリクスとして見ることのできる、トレーニングされていないメトリクスのファミリーです。
このメトリクスの族は、InfoLMを様々な評価基準に適応させる情報測度も活用している。
論文 参考訳(メタデータ) (2021-12-02T20:09:29Z) - OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics [53.779709191191685]
オープンエンドのストーリー生成指標を評価するためのベンチマークであるOpenMEVAを提案する。
OpenMEVAは、メトリクスの能力を評価するための包括的なテストスイートを提供する。
既存の指標は人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識が欠如していることが観察された。
論文 参考訳(メタデータ) (2021-05-19T04:45:07Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - GRUEN for Evaluating Linguistic Quality of Generated Text [17.234442722611803]
本稿では、文法性、非冗長性、focU、生成したテキストの構造とコヒーレンスを評価するためのGRUENを提案する。
GRUENはBERTベースのモデルと構文的、意味的、文脈的特徴のクラスを使用してシステム出力を調べる。
論文 参考訳(メタデータ) (2020-10-06T05:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。