論文の概要: Learning to Revise References for Faithful Summarization
- arxiv url: http://arxiv.org/abs/2204.10290v1
- Date: Wed, 13 Apr 2022 18:54:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-24 15:45:03.392946
- Title: Learning to Revise References for Faithful Summarization
- Title(参考訳): 忠実な要約のための参照を改訂する学習
- Authors: Griffin Adams, Han-Chin Shing, Qing Sun, Christopher Winestock,
Kathleen McKeown, No\'emie Elhadad
- Abstract要約: すべてのデータを保持しながら参照品質を改善するための新しい手法を提案する。
支援文に対する合成なしの代替語を構築し、対照的な学習を用いて、不誠実な修正を回避/促進する。
電子健康記録(EHR)と呼ばれるノイズの多い音源から小さなコーパスを抽出し,複数のノートから病院入院を要約する作業を行う。
- 参考スコア(独自算出の注目度): 10.795263196202159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world scenarios with naturally occurring datasets, reference
summaries are noisy and contain information that cannot be inferred from the
source text. On large news corpora, removing low quality samples has been shown
to reduce model hallucinations. Yet, this method is largely untested for
smaller, noisier corpora. To improve reference quality while retaining all
data, we propose a new approach: to revise--not remove--unsupported reference
content. Without ground-truth supervision, we construct synthetic unsupported
alternatives to supported sentences and use contrastive learning to
discourage/encourage (un)faithful revisions. At inference, we vary style codes
to over-generate revisions of unsupported reference sentences and select a
final revision which balances faithfulness and abstraction. We extract a small
corpus from a noisy source--the Electronic Health Record (EHR)--for the task of
summarizing a hospital admission from multiple notes. Training models on
original, filtered, and revised references, we find (1) learning from revised
references reduces the hallucination rate substantially more than filtering
(18.4\% vs 3.8\%), (2) learning from abstractive (vs extractive) revisions
improves coherence, relevance, and faithfulness, (3) beyond redress of noisy
data, the revision task has standalone value for the task: as a pre-training
objective and as a post-hoc editor.
- Abstract(参考訳): 自然発生のデータセットを持つ多くの現実世界のシナリオでは、参照要約は騒がしく、ソーステキストから推測できない情報を含んでいる。
大きなニュースコーパスでは、低品質サンプルを除去することで、モデル幻覚を減らすことが示されている。
しかし、この方法はより小型でノイズの多いコーパスではほとんどテストされていない。
すべてのデータを保持しながら参照品質を向上させるために,新しいアプローチを提案する。
根底からの監督がなければ、支援文に対する合成支援代替手段を構築し、対照的な学習を用いて、不誠実な修正を回避/促進する。
推論では,提案する参照文を過剰に生成し,忠実さと抽象性のバランスをとる最終版を選択する。
電子健康記録(EHR)と呼ばれるノイズの多い音源から小さなコーパスを抽出し,複数のノートから病院入院を要約する作業を行う。
原文・フィルタ・改訂参考文献のトレーニングモデルでは,(1)改訂基準からの学習は,フィルタリング(18.4\%対3.8\%)よりも幻覚率を有意に低減し,(2)抽象的(vs抽出的)リビジョンからの学習はコヒーレンス,妥当性,忠実性を改善し,(3)ノイズデータの再処理を超えて,事前学習目的として,ポストホックエディタとしてタスクにスタンドアロンの値を与える。
関連論文リスト
- Correction with Backtracking Reduces Hallucination in Summarization [29.093092115901694]
抽象要約は、重要な要素を保存しながら簡潔なソースドキュメントの自然言語要約を生成することを目的としている。
近年の進歩にもかかわらず、神経文の要約モデルは幻覚に感受性があることが知られている。
本稿では,抽象的な要約における幻覚を低減するため,シンプルだが効率的な手法であるCoBaを紹介する。
論文 参考訳(メタデータ) (2023-10-24T20:48:11Z) - Learning with Rejection for Abstractive Text Summarization [42.15551472507393]
本稿では,拒絶学習に基づく抽象的な要約のための学習目標を提案する。
本手法は, 自動評価と人的評価において, 生成した要約の事実性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-02-16T19:07:08Z) - Pre-trained Language Models as Re-Annotators [3.193067591317475]
事前学習言語モデルから意味センシティブなアノテーション表現を取得する方法について検討する。
アノテーション修正のためのクロスバリデーションに基づく事前学習言語モデルを微調整する。
関係抽出における再アノテーションについて検討し、手動で改訂したデータセットRe-DocREDを作成する。
論文 参考訳(メタデータ) (2022-05-11T09:28:23Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - Learning Opinion Summarizers by Selecting Informative Reviews [81.47506952645564]
31,000以上の製品のユーザレビューと組み合わせた大規模な要約データセットを収集し、教師付きトレーニングを可能にします。
多くのレビューの内容は、人間が書いた要約には反映されず、したがってランダムなレビューサブセットで訓練された要約者は幻覚する。
我々は、これらのサブセットで表現された意見を要約し、レビューの情報的サブセットを選択するための共同学習としてタスクを定式化する。
論文 参考訳(メタデータ) (2021-09-09T15:01:43Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。