論文の概要: APPLS: Evaluating Evaluation Metrics for Plain Language Summarization
- arxiv url: http://arxiv.org/abs/2305.14341v2
- Date: Wed, 31 Jan 2024 02:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 18:05:15.534631
- Title: APPLS: Evaluating Evaluation Metrics for Plain Language Summarization
- Title(参考訳): APPLS: 平易な言語要約のための評価指標の評価
- Authors: Yue Guo, Tal August, Gondy Leroy, Trevor Cohen, Lucy Lu Wang
- Abstract要約: 本稿では,Plain Language Summarization (PLS) のメトリクスを評価するための,詳細なメタ評価テストベッド APPLS を提案する。
我々は、PSS計量が捉えるべき以前の研究から着想を得た4つの基準に沿って摂動のセットを定義する:情報性、単純化、一貫性、忠実さ。
PLSにおけるテキストの単純化を評価するための新しい指標であるPOMMEを導入し、ドメイン内言語モデルとドメイン外言語モデルとの正規化パープレキシティ差として算出する。
- 参考スコア(独自算出の注目度): 19.71833039463104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While there has been significant development of models for Plain Language
Summarization (PLS), evaluation remains a challenge. PLS lacks a dedicated
assessment metric, and the suitability of text generation evaluation metrics is
unclear due to the unique transformations involved (e.g., adding background
explanations, removing specialized terminology). To address these concerns, our
study presents a granular meta-evaluation testbed, APPLS, designed to evaluate
metrics for PLS. We define a set of perturbations along four criteria inspired
by previous work that a PLS metric should capture: informativeness,
simplification, coherence, and faithfulness. An analysis of metrics using our
testbed reveals that current metrics fail to capture simplification
consistently. In response, we introduce POMME, a new metric designed to assess
text simplification in PLS; the metric is calculated as the normalized
perplexity difference between an in-domain and out-of-domain language model. We
demonstrate POMME's correlation with fine-grained variations in simplification
and validate its sensitivity across 4 text simplification datasets. This work
contributes the first meta-evaluation testbed for PLS and a comprehensive
evaluation of existing metrics. The APPLS testbed and POMME is available at
https://github.com/LinguisticAnomalies/APPLS.
- Abstract(参考訳): PLS(Plain Language Summarization)のモデルの開発は進んでいるが、評価は依然として課題である。
PLSには専用の評価基準がなく、テキスト生成評価基準の適合性は、関連するユニークな変換(背景説明の追加、専門用語の削除など)のために不明確である。
これらの問題に対処するため,本研究では,PLSの指標評価を目的とした,詳細なメタ評価テストベッドであるAPPLSを提案する。
我々は、plsメトリックが捉えるべき以前の仕事から着想を得た4つの基準に沿って一連の摂動を定義する: 情報性、単純化、一貫性、忠実性。
テストベッドを使用したメトリクスの分析では、現在のメトリクスは、シンプルさを継続的に捉えることができません。
PLSにおけるテキストの単純化を評価するために設計された新しい指標であるPOMMEを導入し、ドメイン内モデルとドメイン外モデルとの正規化パープレクティリティ差として算出する。
本稿では,簡易化における細粒度変化とpommeの相関を示し,その感度を4つのテキスト簡易化データセットで検証する。
この研究は、plsのための最初のメタ評価テストベッドと既存のメトリクスの包括的な評価に寄与する。
APPLSテストベッドとPOMMEはhttps://github.com/LinguisticAnomalies/APPLSで入手できる。
関連論文リスト
- Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Metric Ensembles For Hallucination Detection [0.0]
抽象的な要約の生成に関連する最も差し迫った問題の1つは、「幻覚」を減らす必要があることである。
要約整合性のための教師なしメトリクスの組について検討し、それらの相関関係を人的評価スコアを用いて測定する。
LLM法は幻覚検出のための他の教師なし指標よりも優れていた。
論文 参考訳(メタデータ) (2023-10-16T15:17:22Z) - Simplicity Level Estimate (SLE): A Learned Reference-Less Metric for
Sentence Simplification [8.479659578608233]
文単純化のための学習評価基準(SLE)を提案する。
SLEは単純さに重点を置いており、人間の判断と相関して既存の指標のほとんどを上回ります。
論文 参考訳(メタデータ) (2023-10-12T09:49:10Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。