論文の概要: LongDocFACTScore: Evaluating the Factuality of Long Document Abstractive
Summarisation
- arxiv url: http://arxiv.org/abs/2309.12455v1
- Date: Thu, 21 Sep 2023 19:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 16:52:17.251012
- Title: LongDocFACTScore: Evaluating the Factuality of Long Document Abstractive
Summarisation
- Title(参考訳): LongDocFACTScore:ロングドキュメント抽象要約の現実性を評価する
- Authors: Jennifer A Bishop, Qianqian Xie, Sophia Ananiadou
- Abstract要約: 事実整合性を維持することは抽象的なテキスト要約において重要な問題である。
ROUGEスコアリングなどのテキスト要約を評価するために使用される伝統的なメトリクスは、トークン制限がある。
本稿では,任意の長さの文書にメトリクスを拡張可能な新しい評価フレームワークであるLongDocFACTScoreを提案する。
- 参考スコア(独自算出の注目度): 31.9615780503826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maintaining factual consistency is a critical issue in abstractive text
summarisation, however, it cannot be assessed by traditional automatic metrics
used for evaluating text summarisation, such as ROUGE scoring. Recent efforts
have been devoted to developing improved metrics for measuring factual
consistency using pre-trained language models, but these metrics have
restrictive token limits, and are therefore not suitable for evaluating long
document text summarisation. Moreover, there is limited research evaluating
whether existing automatic evaluation metrics are fit for purpose when applied
to long document data sets. In this work, we evaluate the efficacy of automatic
metrics at assessing factual consistency in long document text summarisation
and propose a new evaluation framework LongDocFACTScore. This framework allows
metrics to be extended to any length document. This framework outperforms
existing state-of-the-art metrics in its ability to correlate with human
measures of factuality when used to evaluate long document summarisation data
sets. Furthermore, we show LongDocFACTScore has performance comparable to
state-of-the-art metrics when evaluated against human measures of factual
consistency on short document data sets. We make our code and annotated data
publicly available: https://github.com/jbshp/LongDocFACTScore.
- Abstract(参考訳): 事実整合性を維持することは抽象的なテキスト要約において重要な問題であるが、ROUGEスコアなどのテキスト要約を評価するために使用される従来の自動メトリクスでは評価できない。
近年,事前学習された言語モデルを用いた実測一貫性測定のための指標の開発が試みられているが,これらの指標は制限的なトークン制限があり,長文要約の評価には適していない。
また、長期文書データセットに適用した場合、既存の自動評価指標が目的に適合するかどうかを評価する研究が限られている。
本研究では,文書要約における事実整合性を評価するための自動メトリクスの有効性を評価し,新しい評価フレームワークであるLongDocFACTScoreを提案する。
このフレームワークはメトリクスをどんな長さのドキュメントにも拡張できる。
このフレームワークは、長い文書要約データセットを評価する際に、人間の実測値と相関する既存の最先端メトリクスよりも優れている。
さらに,LongDocFACTScoreは,短い文書データセット上での事実整合性の評価において,最先端の指標に匹敵する性能を示す。
コードと注釈付きデータを公開しています。 https://github.com/jbshp/LongDocFACTScore。
関連論文リスト
- FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence [39.065349875944634]
本稿では,2つの長文間の談話の相違を定量化する手法を提案する。
ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-15T18:23:39Z) - Evaluating Code Summarization Techniques: A New Metric and an Empirical
Characterization [16.127739014966487]
生成した要約の質を計測する際の様々な種類の指標の相補性について検討する。
我々は,その側面を捉えるために,コントラスト学習に基づく新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-24T13:12:39Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - How Far are We from Robust Long Abstractive Summarization? [39.34743996451813]
我々は、信頼できる要約を生成するために、長い文書抽象要約システム(モデルとメトリクス)を実装して評価する。
長期の文書評価指標について,人間の評価結果から,ROUGEは要約の関連性を評価する上で最善であることが明らかとなった。
我々は、より広い範囲の要約設定でメトリクスの開発に貢献できることを願って、注釈付き長いドキュメントデータセットをリリースします。
論文 参考訳(メタデータ) (2022-10-30T03:19:50Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。