論文の概要: How Far are We from Robust Long Abstractive Summarization?
- arxiv url: http://arxiv.org/abs/2210.16732v1
- Date: Sun, 30 Oct 2022 03:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:59:46.505371
- Title: How Far are We from Robust Long Abstractive Summarization?
- Title(参考訳): ロバスト長期抽象要約からどのくらい遠いのか?
- Authors: Huan Yee Koh, Jiaxin Ju, He Zhang, Ming Liu, Shirui Pan
- Abstract要約: 我々は、信頼できる要約を生成するために、長い文書抽象要約システム(モデルとメトリクス)を実装して評価する。
長期の文書評価指標について,人間の評価結果から,ROUGEは要約の関連性を評価する上で最善であることが明らかとなった。
我々は、より広い範囲の要約設定でメトリクスの開発に貢献できることを願って、注釈付き長いドキュメントデータセットをリリースします。
- 参考スコア(独自算出の注目度): 39.34743996451813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstractive summarization has made tremendous progress in recent years. In
this work, we perform fine-grained human annotations to evaluate long document
abstractive summarization systems (i.e., models and metrics) with the aim of
implementing them to generate reliable summaries. For long document abstractive
models, we show that the constant strive for state-of-the-art ROUGE results can
lead us to generate more relevant summaries but not factual ones. For long
document evaluation metrics, human evaluation results show that ROUGE remains
the best at evaluating the relevancy of a summary. It also reveals important
limitations of factuality metrics in detecting different types of factual
errors and the reasons behind the effectiveness of BARTScore. We then suggest
promising directions in the endeavor of developing factual consistency metrics.
Finally, we release our annotated long document dataset with the hope that it
can contribute to the development of metrics across a broader range of
summarization settings.
- Abstract(参考訳): 抽象的な要約は近年大きく進歩している。
本研究では, 長期文書要約システム(モデルとメトリクス)を評価するために, 信頼できる要約を生成するために, きめ細かなヒューマンアノテーションを実行する。
長い文書抽象モデルでは、最先端のROUGE結果に対する一定の努力により、より関連性の高い要約を生成することができるが、事実ではないことを示す。
長期の文書評価指標では, ROUGEは要約の関連性を評価する上で最善であることを示す。
また、異なる種類の事実エラーの検出における事実性指標の重要な制限と、BARTScoreの有効性の背景にある理由を明らかにしている。
次に、事実整合性メトリクスを開発する取り組みにおける有望な方向性を提案する。
最後に、より広い範囲の要約設定でメトリクスの開発に貢献できることを願って、注釈付き長いドキュメントデータセットをリリースします。
関連論文リスト
- FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - LongDocFACTScore: Evaluating the Factuality of Long Document Abstractive Summarisation [28.438103177230477]
長文要約の事実整合性を評価するための自動測度の有効性を評価する。
本稿では,文書要約データセットの評価に適した新しい評価フレームワークであるLongDocFACTScoreを提案する。
論文 参考訳(メタデータ) (2023-09-21T19:54:54Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - Efficient Attentions for Long Document Summarization [25.234852272297598]
Heposは、頭の位置方向のストライドを持つ、新しい効率的なエンコーダデコーダアテンションである。
十分な注意を払っている既存のモデルよりも10倍のトークンを処理できます。
論文 参考訳(メタデータ) (2021-04-05T18:45:13Z) - On Generating Extended Summaries of Long Documents [16.149617108647707]
本稿では,長論文の拡張要約を生成する新しい手法を提案する。
本手法は,文書の階層構造を利用して抽出要約モデルに組み込む。
分析の結果,提案手法は,要約文に好適な抽出確率分布を調整できることが示唆された。
論文 参考訳(メタデータ) (2020-12-28T08:10:28Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - Massive Multi-Document Summarization of Product Reviews with Weak
Supervision [11.462916848094403]
製品レビュー要約は、MDS(Multi-Document Summarization)タスクの一種です。
レビューの小さなサンプルを要約すると、重要な情報が失われる可能性がある。
本稿では,標準的な要約アルゴリズムに基づいて,大量のレビューを要約するスキーマを提案する。
論文 参考訳(メタデータ) (2020-07-22T11:22:57Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。