論文の概要: Stress Testing Factual Consistency Metrics for Long-Document Summarization
- arxiv url: http://arxiv.org/abs/2511.07689v1
- Date: Wed, 12 Nov 2025 01:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.427886
- Title: Stress Testing Factual Consistency Metrics for Long-Document Summarization
- Title(参考訳): 長期文書要約のためのストレステスト実測値
- Authors: Zain Muhammad Mujahid, Dustin Wright, Isabelle Augenstein,
- Abstract要約: 筆者らは,6つの参照自由事実性指標の信頼性を体系的に評価した。
要約に適用した7つの事実保存摂動を通して、計量ロバスト性を探索する。
以上の結果から,既存のショートフォームメトリクスは意味論的に等価な要約に対して一貫性のないスコアを生成し,情報密度の主張に対して信頼性が低下していることが判明した。
- 参考スコア(独自算出の注目度): 36.761145124360944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the factual consistency of abstractive text summarization remains a significant challenge, particularly for long documents, where conventional metrics struggle with input length limitations and long-range dependencies. In this work, we systematically evaluate the reliability of six widely used reference-free factuality metrics, originally proposed for short-form summarization, in the long-document setting. We probe metric robustness through seven factuality-preserving perturbations applied to summaries, namely paraphrasing, simplification, synonym replacement, logically equivalent negations, vocabulary reduction, compression, and source text insertion, and further analyze their sensitivity to retrieval context and claim information density. Across three long-form benchmark datasets spanning science fiction, legal, and scientific domains, our results reveal that existing short-form metrics produce inconsistent scores for semantically equivalent summaries and exhibit declining reliability for information-dense claims whose content is semantically similar to many parts of the source document. While expanding the retrieval context improves stability in some domains, no metric consistently maintains factual alignment under long-context conditions. Finally, our results highlight concrete directions for improving factuality evaluation, including multi-span reasoning, context-aware calibration, and training on meaning-preserving variations to enhance robustness in long-form summarization. We release all code, perturbed data, and scripts required to reproduce our results at https://github.com/zainmujahid/metricEval-longSum.
- Abstract(参考訳): 抽象的なテキスト要約の事実整合性を評価することは、特に、従来のメトリクスが入力長制限や長距離依存に苦しむ長い文書にとって、依然として重要な課題である。
本研究は,主に短文要約のために提案された6つの参照自由事実性指標の信頼性を,長期文書設定で体系的に評価する。
本研究では, 要約に適用される7つの事実保存摂動, 言い換え, 単純化, 同義語置換, 論理的に等価な否定, 語彙の縮小, 圧縮, ソーステキスト挿入による計量ロバスト性を探索し, 文脈やクレーム情報密度に対する感度を解析する。
筆者らは, SF, 法律, 科学領域にまたがる3つの長文ベンチマークデータセットにおいて, 既存の短文指標が意味論的に等価な要約のための一貫性のないスコアを生成し, 内容が意味論的にその資料の多くの部分と類似している情報密度クレームに対する信頼性が低下していることを明らかにした。
検索コンテキストを拡張することで、いくつかの領域の安定性が向上する一方、長いコンテキスト条件下での実際のアライメントを一貫して維持する計量は存在しない。
最後に, マルチスパン推論, コンテキスト認識キャリブレーション, および長文要約における頑健性を高めるために, 意味保存変化の訓練など, 事実性評価を改善するための具体的な方向性を強調した。
私たちはhttps://github.com/zainmujahid/metricEval-longSumで結果の再現に必要なすべてのコード、摂動データ、スクリプトをリリースします。
関連論文リスト
- Discourse-Driven Evaluation: Unveiling Factual Inconsistency in Long Document Summarization [7.218054628599005]
本研究では,事実整合性エラーを考察し,それらと談話分析の行を結びつける。
長文を談話にインスパイアされたチャンクに分解するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T06:30:15Z) - On Positional Bias of Faithfulness for Long-form Summarization [83.63283027830657]
LLM(Large Language Models)は、長いコンテキスト設定において、入力の途中で情報に過小評価される位置バイアスを示すことが多い。
長文要約におけるこのバイアスの存在、その忠実性への影響、およびこのバイアスを軽減するための様々な技術について検討する。
論文 参考訳(メタデータ) (2024-10-31T03:50:15Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - LongDocFACTScore: Evaluating the Factuality of Long Document Abstractive Summarisation [28.438103177230477]
長文要約の事実整合性を評価するための自動測度の有効性を評価する。
本稿では,文書要約データセットの評価に適した新しい評価フレームワークであるLongDocFACTScoreを提案する。
論文 参考訳(メタデータ) (2023-09-21T19:54:54Z) - Factual Consistency Evaluation for Text Summarization via Counterfactual
Estimation [42.63902468258758]
本稿では,テキスト要約における事実整合性を評価するための新しい指標を提案する。
我々は3つの公開抽象テキスト要約データセットについて一連の実験を行った。
論文 参考訳(メタデータ) (2021-08-30T11:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。