論文の概要: Can We Trust the Performance Evaluation of Uncertainty Estimation Methods in Text Summarization?
- arxiv url: http://arxiv.org/abs/2406.17274v2
- Date: Wed, 09 Oct 2024 04:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:45.465522
- Title: Can We Trust the Performance Evaluation of Uncertainty Estimation Methods in Text Summarization?
- Title(参考訳): テキスト要約における不確実性推定手法の性能評価を信頼できるか?
- Authors: Jianfeng He, Runing Yang, Linlin Yu, Changbin Li, Ruoxi Jia, Feng Chen, Ming Jin, Chang-Tien Lu,
- Abstract要約: 4次元にわたる31個のNLGメトリクスを包含した包括的UE-TSベンチマークを導入する。
このベンチマークは、3つのデータセット上で2つの大きな言語モデルと1つの事前訓練された言語モデルの不確実性推定能力を評価する。
本研究は,複数の非相関性NLG指標と多様な不確実性推定手法を検討することの重要性を強調した。
- 参考スコア(独自算出の注目度): 28.30641958347868
- License:
- Abstract: Text summarization, a key natural language generation (NLG) task, is vital in various domains. However, the high cost of inaccurate summaries in risk-critical applications, particularly those involving human-in-the-loop decision-making, raises concerns about the reliability of uncertainty estimation on text summarization (UE-TS) evaluation methods. This concern stems from the dependency of uncertainty model metrics on diverse and potentially conflicting NLG metrics. To address this issue, we introduce a comprehensive UE-TS benchmark incorporating 31 NLG metrics across four dimensions. The benchmark evaluates the uncertainty estimation capabilities of two large language models and one pre-trained language model on three datasets, with human-annotation analysis incorporated where applicable. We also assess the performance of 14 common uncertainty estimation methods within this benchmark. Our findings emphasize the importance of considering multiple uncorrelated NLG metrics and diverse uncertainty estimation methods to ensure reliable and efficient evaluation of UE-TS techniques. Our code and data are available https://github.com/he159ok/Benchmark-of-Uncertainty-Estimation-Methods-in-Text-Summarization.
- Abstract(参考訳): テキスト要約は、様々な領域において重要な自然言語生成(NLG)タスクである。
しかし、リスククリティカルなアプリケーションにおける不正確な要約のコストが高いこと、特に人間によるループ内意思決定に関わるものは、テキスト要約(UE-TS)評価法における不確実性推定の信頼性を懸念する。
この懸念は、多様かつ潜在的に矛盾するNLGメトリクスに対する不確実性モデルメトリクスの依存に起因している。
この問題に対処するため、4次元にわたる31 NLGメトリクスを包括的に組み込んだUE-TSベンチマークを導入する。
このベンチマークは、3つのデータセット上で2つの大きな言語モデルと1つの事前訓練された言語モデルの不確実性推定能力を評価する。
また,本ベンチマークにおける14種類の共通不確実性評価手法の性能評価を行った。
本研究は,UE-TS手法の信頼性と有効性を確保するために,複数の非相関性NLG指標と多様な不確実性推定手法を検討することの重要性を強調した。
私たちのコードとデータはhttps://github.com/he159ok/Benchmark-of-Uncertainty-Estimation-Methods-in-Text-Summarizationで利用可能です。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Evaluating Evaluation Metrics: A Framework for Analyzing NLG Evaluation
Metrics using Measurement Theory [46.06645793520894]
MetricEvalは、NLG評価指標の信頼性と妥当性を概念化し、評価するためのフレームワークである。
我々は,信頼性の高い指標の設計,評価,解釈を推進し,堅牢で効果的なNLGモデルを推し進めることを目的としている。
論文 参考訳(メタデータ) (2023-05-24T08:38:23Z) - Ambiguity Meets Uncertainty: Investigating Uncertainty Estimation for
Word Sense Disambiguation [5.55197751179213]
既存の教師付き手法は、WSDを分類タスクとして扱い、優れたパフォーマンスを実現した。
本稿では,WSD 向けに設計されたベンチマークにおける不確実性推定(UE)を広範囲に研究する。
本研究では, モデルが適切に設計されたテストシナリオにおいて, 選択されたUEスコアを用いて, モデルによるデータとモデルの不確実性を捕捉する能力について検討し, モデルの不確実性を十分に反映するが, モデルの不確実性を過小評価する。
論文 参考訳(メタデータ) (2023-05-22T15:18:15Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。