論文の概要: SEval-Ex: A Statement-Level Framework for Explainable Summarization Evaluation
- arxiv url: http://arxiv.org/abs/2505.02235v1
- Date: Sun, 04 May 2025 20:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.49836
- Title: SEval-Ex: A Statement-Level Framework for Explainable Summarization Evaluation
- Title(参考訳): Seval-Ex: 説明可能な要約評価のためのステートメントレベルフレームワーク
- Authors: Tanguy Herserant, Vincent Guigue,
- Abstract要約: 現在のアプローチでは、パフォーマンスと解釈可能性のトレードオフに直面しています。
要約評価をアトミックステートメントに分解することで,このギャップを埋めるフレームワークであるSEval-Exを提案する。
SummEvalベンチマークの実験により、SEval-Exは、人間の一貫性判定との整合性に0.580の相関で最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 2.0027415925559966
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating text summarization quality remains a critical challenge in Natural Language Processing. Current approaches face a trade-off between performance and interpretability. We present SEval-Ex, a framework that bridges this gap by decomposing summarization evaluation into atomic statements, enabling both high performance and explainability. SEval-Ex employs a two-stage pipeline: first extracting atomic statements from text source and summary using LLM, then a matching between generated statements. Unlike existing approaches that provide only summary-level scores, our method generates detailed evidence for its decisions through statement-level alignments. Experiments on the SummEval benchmark demonstrate that SEval-Ex achieves state-of-the-art performance with 0.580 correlation on consistency with human consistency judgments, surpassing GPT-4 based evaluators (0.521) while maintaining interpretability. Finally, our framework shows robustness against hallucination.
- Abstract(参考訳): テキスト要約の品質を評価することは、自然言語処理において重要な課題である。
現在のアプローチでは、パフォーマンスと解釈可能性のトレードオフに直面しています。
このギャップを埋めるフレームワークであるSEval-Exは、要約評価をアトミックステートメントに分解することで、高い性能と説明可能性の両方を実現する。
SEval-Exは、まずテキストソースからアトミックステートメントを抽出し、LLMを使用して要約し、次に生成されたステートメントのマッチングを行う。
要約レベルのスコアのみを提供する既存のアプローチとは異なり,提案手法は文レベルのアライメントを通じて,その決定に関する詳細な証拠を生成する。
SummEvalベンチマークの実験では、Seval-Exは、解釈性を維持しつつ、GPT-4ベースの評価器(0.521)を上回り、人間の整合性判定との整合性に0.580の相関で最先端のパフォーマンスを達成することを示した。
最後に、私たちのフレームワークは幻覚に対する堅牢性を示します。
関連論文リスト
- ExPerT: Effective and Explainable Evaluation of Personalized Long-Form Text Generation [19.333896936153618]
ExPerTは、パーソナライズされたテキスト生成のための説明可能な参照ベースの評価フレームワークである。
実験の結果, ExPerTは人間の判断に合わせた相対的な7.2%の改善を達成できた。
人間の評価者は、ExPerTの説明を5つ中4.7に評価し、評価決定をより解釈可能なものにする効果を強調した。
論文 参考訳(メタデータ) (2025-01-24T22:44:22Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (2023-03-27T22:30:39Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。