論文の概要: APPLS: A Meta-evaluation Testbed for Plain Language Summarization
- arxiv url: http://arxiv.org/abs/2305.14341v1
- Date: Tue, 23 May 2023 17:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:27:53.204536
- Title: APPLS: A Meta-evaluation Testbed for Plain Language Summarization
- Title(参考訳): APPLS: 平易な言語要約のためのメタ評価テストベッド
- Authors: Yue Guo, Tal August, Gondy Leroy, Trevor Cohen, Lucy Lu Wang
- Abstract要約: 平易な言語要約(PLS)には複数の相互関連言語変換が含まれる。
PLSのためのメトリクスは明示的に設計されておらず、他のテキスト生成評価指標の適合性はまだ不明である。
本稿では,PLSの既存の指標を評価するための,詳細なメタ評価テストベッドであるAPPLSを提案する。
PLSにおけるテキストの単純化を評価するための新しい指標であるPOMMEを紹介する。
- 参考スコア(独自算出の注目度): 18.511060354004456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While there has been significant development of models for Plain Language
Summarization (PLS), evaluation remains a challenge. This is in part because
PLS involves multiple, interrelated language transformations (e.g., adding
background explanations, removing specialized terminology). No metrics are
explicitly engineered for PLS, and the suitability of other text generation
evaluation metrics remains unclear. To address these concerns, our study
presents a granular meta-evaluation testbed, APPLS, designed to evaluate
existing metrics for PLS. Drawing on insights from previous research, we define
controlled perturbations for our testbed along four criteria that a metric of
plain language should capture: informativeness, simplification, coherence, and
faithfulness. Our analysis of metrics using this testbed reveals that current
metrics fail to capture simplification, signaling a crucial gap. In response,
we introduce POMME, a novel metric designed to assess text simplification in
PLS. We demonstrate its correlation with simplification perturbations and
validate across a variety of datasets. Our research contributes the first
meta-evaluation testbed for PLS and a comprehensive evaluation of existing
metrics, offering insights with relevance to other text generation tasks.
- Abstract(参考訳): PLS(Plain Language Summarization)のモデルの開発は進んでいるが、評価は依然として課題である。
これはplsが複数の相互関連言語変換(背景説明の追加、専門用語の削除など)を伴っているためである。
PLSのためのメトリクスは明示的に設計されておらず、他のテキスト生成評価指標の適合性はまだ不明である。
これらの問題に対処するため,本研究では,PLSの既存の指標を評価するために,詳細なメタ評価テストベッドであるAPPLSを提案する。
従来の研究から得られた知見に基づいて、我々は、平易言語の計量が捉えるべき4つの基準(情報性、単純化、一貫性、忠実性)に沿って、テストベッドに対する制御された摂動を定義する。
このテストベッドを使ってメトリクスを分析した結果、現在のメトリクスは単純化を捉えられず、重大なギャップを示唆しています。
そこで本研究では,plsにおけるテキスト簡易化を評価するための新しい指標であるpommeを紹介する。
我々は、単純化摂動と相関を示し、様々なデータセットにまたがって検証する。
本研究は,PLSのための最初のメタ評価テストベッドと既存のメトリクスを総合的に評価し,他のテキスト生成タスクに関連性のある洞察を提供する。
関連論文リスト
- Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Metric Ensembles For Hallucination Detection [0.0]
抽象的な要約の生成に関連する最も差し迫った問題の1つは、「幻覚」を減らす必要があることである。
要約整合性のための教師なしメトリクスの組について検討し、それらの相関関係を人的評価スコアを用いて測定する。
LLM法は幻覚検出のための他の教師なし指標よりも優れていた。
論文 参考訳(メタデータ) (2023-10-16T15:17:22Z) - Simplicity Level Estimate (SLE): A Learned Reference-Less Metric for
Sentence Simplification [8.479659578608233]
文単純化のための学習評価基準(SLE)を提案する。
SLEは単純さに重点を置いており、人間の判断と相関して既存の指標のほとんどを上回ります。
論文 参考訳(メタデータ) (2023-10-12T09:49:10Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。