論文の概要: On Faithfulness and Factuality in Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2005.00661v1
- Date: Sat, 2 May 2020 00:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:15:13.909690
- Title: On Faithfulness and Factuality in Abstractive Summarization
- Title(参考訳): 抽象要約における忠実性と事実性について
- Authors: Joshua Maynez and Shashi Narayan and Bernd Bohnet and Ryan McDonald
- Abstract要約: 我々は抽象文書要約のためのニューラルテキスト生成モデルの制約を解析した。
これらのモデルは、入力文書に反するコンテンツを幻覚させる傾向にあることがわかった。
テキスト・エンタテインメントの指標は,標準指標よりも忠実度と相関性が高いことを示す。
- 参考スコア(独自算出の注目度): 17.261247316769484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well known that the standard likelihood training and approximate
decoding objectives in neural text generation models lead to less human-like
responses for open-ended tasks such as language modeling and story generation.
In this paper we have analyzed limitations of these models for abstractive
document summarization and found that these models are highly prone to
hallucinate content that is unfaithful to the input document. We conducted a
large scale human evaluation of several neural abstractive summarization
systems to better understand the types of hallucinations they produce. Our
human annotators found substantial amounts of hallucinated content in all model
generated summaries. However, our analysis does show that pretrained models are
better summarizers not only in terms of raw metrics, i.e., ROUGE, but also in
generating faithful and factual summaries as evaluated by humans. Furthermore,
we show that textual entailment measures better correlate with faithfulness
than standard metrics, potentially leading the way to automatic evaluation
metrics as well as training and decoding criteria.
- Abstract(参考訳): ニューラルテキスト生成モデルにおける標準的な可能性訓練と近似復号化目的が、言語モデリングやストーリー生成のようなオープンエンドタスクに対する人間的な応答を減らすことはよく知られている。
本稿では,抽象文書要約におけるこれらのモデルの限界を解析し,これらのモデルが入力文書に反するコンテンツを幻覚させる傾向にあることを示した。
そこで我々は,複数の神経抽象的要約システムの大規模評価を行い,それらが生成する幻覚のタイプをよりよく理解した。
我々のアノテータは、全てのモデルが生成した要約にかなりの量の幻覚的内容を発見した。
しかし,本研究では,事前学習モデルが,生の指標であるROUGEだけでなく,人間によって評価される忠実で事実的な要約を生成する上で,より優れた要約者であることを示す。
さらに,テキストエンテーメント尺度は標準指標よりも忠実度と相関し,トレーニングや復号化基準と同様に,自動評価指標への道のりを導く可能性が示唆された。
関連論文リスト
- Assessment of Transformer-Based Encoder-Decoder Model for Human-Like Summarization [0.05852077003870416]
この研究は、トランスフォーマーベースのBARTモデルを利用して人間のような要約を行う。
エンコーダ・デコーダモデルの訓練および微調整において,多種多様なサンプル記事を用いて検証を行った。
微調整モデルの性能をベースライン事前訓練モデルと比較する。
BBC Newsの記事に載った実証的な結果は、人間によって書かれた金の標準要約の方が17%も現実的に一貫性があることを示している。
論文 参考訳(メタデータ) (2024-10-22T09:25:04Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Leveraging Pretrained Models for Automatic Summarization of
Doctor-Patient Conversations [9.184616102949228]
BARTを微調整することで,限られたトレーニングデータを用いて,流動的で適切な要約を生成することができることを示す。
慎重に選択された微調整データセットを用いて、この手法はより長い会話を扱うのに効果的であることが示されている。
論文 参考訳(メタデータ) (2021-09-24T20:18:59Z) - Improving Faithfulness in Abstractive Summarization with Contrast
Candidate Generation and Selection [54.38512834521367]
モデル非依存後処理技術としてのコントラスト候補生成と選択について検討する。
代替候補要約を生成して判別補正モデルを学習する。
このモデルを使用して、最終的な出力サマリーとして最適な候補を選択する。
論文 参考訳(メタデータ) (2021-04-19T05:39:24Z) - SummVis: Interactive Visual Analysis of Models, Data, and Evaluation for
Text Summarization [14.787106201073154]
SummVisは抽象要約を視覚化するためのオープンソースツールです。
テキスト要約に関連するモデル、データ、評価メトリクスの詳細な分析を可能にする。
論文 参考訳(メタデータ) (2021-04-15T17:13:00Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。