論文の概要: Fine-Grained Natural Language Inference Based Faithfulness Evaluation
for Diverse Summarisation Tasks
- arxiv url: http://arxiv.org/abs/2402.17630v1
- Date: Tue, 27 Feb 2024 15:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:34:05.066562
- Title: Fine-Grained Natural Language Inference Based Faithfulness Evaluation
for Diverse Summarisation Tasks
- Title(参考訳): 多様な要約タスクに対する忠実性評価に基づくきめ細かい自然言語推論
- Authors: Huajian Zhang, Yumo Xu, Laura Perez-Beltrachini
- Abstract要約: 既成の自然言語推論(NLI)モデルを用いた要約忠実度の評価手法について検討した。
InFusEという新しい手法を提案する。これは、変数の前提サイズを使い、要約文を短い仮説に単純化する。
- 参考スコア(独自算出の注目度): 14.319567507959759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study existing approaches to leverage off-the-shelf Natural Language
Inference (NLI) models for the evaluation of summary faithfulness and argue
that these are sub-optimal due to the granularity level considered for premises
and hypotheses. That is, the smaller content unit considered as hypothesis is a
sentence and premises are made up of a fixed number of document sentences. We
propose a novel approach, namely InFusE, that uses a variable premise size and
simplifies summary sentences into shorter hypotheses. Departing from previous
studies which focus on single short document summarisation, we analyse NLI
based faithfulness evaluation for diverse summarisation tasks. We introduce
DiverSumm, a new benchmark comprising long form summarisation (long documents
and summaries) and diverse summarisation tasks (e.g., meeting and
multi-document summarisation). In experiments, InFusE obtains superior
performance across the different summarisation tasks. Our code and data are
available at https://github.com/HJZnlp/infuse.
- Abstract(参考訳): 我々は,既成の自然言語推論(NLI)モデルを用いて要約忠実度の評価を行い,前提条件や仮説として考慮された粒度レベルから,これらが準最適であると主張する。
すなわち、仮説と見なされる小さな内容単位は文であり、前提は一定数の文書文で構成されている。
本稿では,可変前提サイズを用いて,要約文を短い仮説に簡略化する新しいアプローチ,infuseを提案する。
単一文書要約に着目した過去の研究とは別に,NLIに基づく多種多様な要約タスクに対する忠実度評価の分析を行った。
長文要約(長文要約と長文要約)と多種多様な要約タスク(ミーティングと複数文書要約など)からなる新しいベンチマークである diversumm を紹介する。
実験では、InFusEは異なる要約タスク間で優れたパフォーマンスを得る。
私たちのコードとデータはhttps://github.com/hjznlp/infuseで入手できます。
関連論文リスト
- Write Summary Step-by-Step: A Pilot Study of Stepwise Summarization [48.57273563299046]
本稿では,新たな文書が提案されるたびに追加の要約を生成するステップワイド要約の課題を提案する。
追加された要約は、新たに追加されたコンテンツを要約するだけでなく、以前の要約と一貫性を持たなければならない。
SSGは,自動計測と人的評価の両面から,最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-06-08T05:37:26Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - R$^2$F: A General Retrieval, Reading and Fusion Framework for
Document-level Natural Language Inference [29.520857954199904]
文書レベルの自然言語推論(DOCNLI)は、自然言語処理における新しい課題である。
我々は、Retrieval, Reading and Fusion (R2F)フレームワークと呼ばれる一般的なソリューションと、新しい設定を確立する。
実験結果から,R2Fフレームワークは最先端の性能を得ることができ,多種多様なエビデンス検索手法に対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2022-10-22T02:02:35Z) - Stretching Sentence-pair NLI Models to Reason over Long Documents and
Clusters [35.103851212995046]
自然言語推論(NLI)は,文ペア間の意味的関係を推定するフレームワークとして,NLPコミュニティによって広く研究されている。
我々は、NLIモデルの実アプリケーションへの直接ゼロショット適用性について、訓練された文ペア設定を超えて検討する。
本研究では,ContractNLIデータセット上で,フルドキュメント上で動作し,最先端のパフォーマンスを実現するための新たなアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2022-04-15T12:56:39Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - SupMMD: A Sentence Importance Model for Extractive Summarization using
Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文 参考訳(メタデータ) (2020-10-06T09:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。