論文の概要: Alleviating Exposure Bias via Contrastive Learning for Abstractive Text
Summarization
- arxiv url: http://arxiv.org/abs/2108.11846v1
- Date: Thu, 26 Aug 2021 15:14:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:06:36.103575
- Title: Alleviating Exposure Bias via Contrastive Learning for Abstractive Text
Summarization
- Title(参考訳): 抽象テキスト要約のためのコントラスト学習による露出バイアスの軽減
- Authors: Shichao Sun and Wenjie Li
- Abstract要約: コントラスト学習を活用して,低品質な要約の可能性を低減することを提案する。
提案手法は,異なるデータセット上での最先端モデルの性能を効果的に向上することを示した。
- 参考スコア(独自算出の注目度): 9.70720105464003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encoder-decoder models have achieved remarkable success in abstractive text
summarization, which aims to compress one or more documents into a shorter
version without the loss of the essential content. Unfortunately, these models
mostly suffer a discrepancy between training and inference, i.e., the exposure
bias problem. During the training stage, with teacher forcing these models are
optimized to maximize the likelihood of the gold summary given the gold summary
tokens as input to the decoder, while at inference the given tokens are
replaced by the generated tokens. Consequently, low-quality summaries are very
likely to be generated. To remedy this problem, we propose to leverage
contrastive learning to decrease the likelihood of these low-quality summaries,
and meanwhile increase the likelihood of the gold summary. Since our solution
expands the states that the model perceives during training, we expect that the
exposure bias problem can be alleviated. We experimentally demonstrate that our
method effectively improves the performance of the state-of-the-art model on
different datasets.
- Abstract(参考訳): エンコーダ-デコーダモデルは、1つまたは複数の文書を本質的な内容を失うことなくより短いバージョンに圧縮することを目的として、抽象的なテキスト要約において顕著な成功を収めている。
残念なことにこれらのモデルは、主にトレーニングと推論、すなわち露出バイアスの問題に相違する。
トレーニング段階において、これらのモデルを強制する教師は、デコーダへの入力として金の要約トークンが与えられた金の要約の可能性を最大にするために最適化され、推論時に与えられたトークンは生成されたトークンに置き換えられる。
その結果、低品質の要約が生成される可能性が非常に高い。
この問題を解決するために, コントラスト学習を活用し, 低品質要約の可能性を低減し, その一方で, ゴールド要約の可能性を高めることを提案する。
私たちのソリューションは、トレーニング中にモデルが知覚する状態を拡張するので、露出バイアス問題を軽減できると期待します。
本手法は,異なるデータセット上での最先端モデルの性能を効果的に改善できることを実験的に実証する。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Factually Consistent Summarization via Reinforcement Learning with
Textual Entailment Feedback [57.816210168909286]
我々は,この問題を抽象的な要約システムで解くために,テキストエンテーメントモデルの最近の進歩を活用している。
我々は、事実整合性を最適化するために、レファレンスフリーのテキストエンターメント報酬を用いた強化学習を用いる。
自動測定と人的評価の両結果から,提案手法は生成した要約の忠実さ,サリエンス,簡潔さを著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-05-31T21:04:04Z) - Learning with Rejection for Abstractive Text Summarization [42.15551472507393]
本稿では,拒絶学習に基づく抽象的な要約のための学習目標を提案する。
本手法は, 自動評価と人的評価において, 生成した要約の事実性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-02-16T19:07:08Z) - Mutual Information Alleviates Hallucinations in Abstractive
Summarization [73.48162198041884]
モデルが生成中の幻覚コンテンツにより多くの確率を割り当てる可能性が著しく高いという単純な基準を見いだす。
この発見は幻覚の潜在的な説明を提供する:モデルは、継続について不確実な場合には、高い限界確率のテキストを好むことをデフォルトとする。
そこで本研究では,ターゲットトークンの正当性ではなく,ソースとターゲットトークンのポイントワイドな相互情報の最適化に切り替える復号手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T13:30:54Z) - CLIFF: Contrastive Learning for Improving Faithfulness and Factuality in
Abstractive Summarization [6.017006996402699]
我々は、与えられた記事に忠実で事実に整合した抽象的な要約を生成することを研究する。
参照要約を正のトレーニングデータとして活用し、誤要約を負のトレーニングデータとして自動生成し、両者を区別し易い要約システムを訓練する、新しいコントラスト学習定式化を提案する。
論文 参考訳(メタデータ) (2021-09-19T20:05:21Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z) - Text Generation by Learning from Demonstrations [17.549815256968877]
テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
本稿では,重要な重み付けによって専門家によるデモンストレーションから学習する,最適化の容易なアルゴリズムGOLDを提案する。
自動評価と人的評価の両方で、GOLDでトレーニングされたモデルは、MLEとポリシー勾配によってトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2020-09-16T17:58:37Z) - Noisy Self-Knowledge Distillation for Text Summarization [83.49809205891496]
我々は, テキスト要約に自己知識蒸留を適用し, 最大習熟時の問題を緩和できると考えている。
学生要約モデルは,学習の正規化を支援するスムーズなラベルを生成する教師の指導によって訓練される。
筆者らは,3つのベンチマークを用いて,事前学習と非事前学習の両方のパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2020-09-15T12:53:09Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。