論文の概要: Improving abstractive summarization with energy-based re-ranking
- arxiv url: http://arxiv.org/abs/2210.15553v1
- Date: Thu, 27 Oct 2022 15:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:15:34.908663
- Title: Improving abstractive summarization with energy-based re-ranking
- Title(参考訳): エネルギーベース再ランキングによる抽象要約の改善
- Authors: Diogo Pernes, Afonso Mendes, Andr\'e F.T. Martins
- Abstract要約: 本稿では、これらの指標の1つまたは1つの組み合わせに従って要約を並べ替えることを学ぶエネルギーベースモデルを提案する。
我々は、エネルギーベースのリランカのトレーニングにいくつかの指標を用いて実験を行い、予測されたサマリーによって達成されるスコアを一貫して改善することを示す。
- 参考スコア(独自算出の注目度): 4.311978285976062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current abstractive summarization systems present important weaknesses which
prevent their deployment in real-world applications, such as the omission of
relevant information and the generation of factual inconsistencies (also known
as hallucinations). At the same time, automatic evaluation metrics such as CTC
scores have been recently proposed that exhibit a higher correlation with human
judgments than traditional lexical-overlap metrics such as ROUGE. In this work,
we intend to close the loop by leveraging the recent advances in summarization
metrics to create quality-aware abstractive summarizers. Namely, we propose an
energy-based model that learns to re-rank summaries according to one or a
combination of these metrics. We experiment using several metrics to train our
energy-based re-ranker and show that it consistently improves the scores
achieved by the predicted summaries. Nonetheless, human evaluation results show
that the re-ranking approach should be used with care for highly abstractive
summaries, as the available metrics are not yet sufficiently reliable for this
purpose.
- Abstract(参考訳): 現在の抽象的な要約システムは、関連する情報の排除や事実的矛盾(幻覚)の発生など、現実世界のアプリケーションへの展開を妨げる重要な弱点を提示している。
同時に,CTCスコアなどの自動評価指標も提案されており,ROUGEなどの従来の語彙オーバーラップ指標よりも人間の判断と高い相関性を示している。
本研究では,要約メトリクスの最近の進歩を活用して,品質を意識した要約要約を作成することで,ループを閉鎖する。
すなわち、これらの指標の1つまたは1つの組み合わせに従って要約を並べ替えることを学ぶエネルギーベースモデルを提案する。
我々は、エネルギーベースのリランカのトレーニングにいくつかの指標を用いて実験を行い、予測されたサマリーによって達成されるスコアを一貫して改善することを示す。
それにもかかわらず、人間評価の結果は、利用可能なメトリクスがこの目的に十分信頼できないため、高度に抽象的な要約に注意して再ランク付けアプローチを使用するべきであることを示している。
関連論文リスト
- FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Redundancy Aware Multi-Reference Based Gainwise Evaluation of Extractive Summarization [3.5297361401370044]
ROUGEメートル法は意味的認識の欠如と抽出要約器のランク付け品質について無知であるとして批判されている。
これまでの研究では、これらの問題に対処するSem-nCGと呼ばれるゲインベースの自動メトリクスが導入された。
冗長性を考慮したSem-nCG測度を提案し、複数の参照に対してモデル要約を評価する方法を示す。
論文 参考訳(メタデータ) (2023-08-04T11:47:19Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - Understanding Factuality in Abstractive Summarization with FRANK: A
Benchmark for Factuality Metrics [17.677637487977208]
現代の要約モデルは、高度に流れるが、実際には信頼できない出力を生成する。
一般的なベンチマークがないため、自動生成したサマリーの事実性を測定するためのメトリクスを比較することはできない。
我々は,事実誤りの類型を考案し,それを用いて,最先端の要約システムから生成された要約の人間のアノテーションを収集する。
論文 参考訳(メタデータ) (2021-04-27T17:28:07Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。