論文の概要: TED: A Pretrained Unsupervised Summarization Model with Theme Modeling
and Denoising
- arxiv url: http://arxiv.org/abs/2001.00725v3
- Date: Sun, 18 Oct 2020 00:26:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 17:46:26.671991
- Title: TED: A Pretrained Unsupervised Summarization Model with Theme Modeling
and Denoising
- Title(参考訳): TED: テーマモデリングとDenoisingを備えた教師なし要約モデル
- Authors: Ziyi Yang, Chenguang Zhu, Robert Gmyr, Michael Zeng, Xuedong Huang,
Eric Darve
- Abstract要約: 本稿では,大規模データを事前学習したトランスフォーマーに基づく非教師なし抽象要約システムを提案する。
まずニュース記事のリードバイアスを利用して、何百万ものラベルのないコーパスでモデルを事前訓練する。
テーマモデリングとデノナイズドオートエンコーダを用いて、対象ドメイン上でTEDを微調整し、生成した要約の質を高める。
- 参考スコア(独自算出の注目度): 44.384730968526156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text summarization aims to extract essential information from a piece of text
and transform the text into a concise version. Existing unsupervised
abstractive summarization models leverage recurrent neural networks framework
while the recently proposed transformer exhibits much more capability.
Moreover, most of previous summarization models ignore abundant unlabeled
corpora resources available for pretraining. In order to address these issues,
we propose TED, a transformer-based unsupervised abstractive summarization
system with pretraining on large-scale data. We first leverage the lead bias in
news articles to pretrain the model on millions of unlabeled corpora. Next, we
finetune TED on target domains through theme modeling and a denoising
autoencoder to enhance the quality of generated summaries. Notably, TED
outperforms all unsupervised abstractive baselines on NYT, CNN/DM and English
Gigaword datasets with various document styles. Further analysis shows that the
summaries generated by TED are highly abstractive, and each component in the
objective function of TED is highly effective.
- Abstract(参考訳): テキスト要約は、テキストから必須情報を抽出し、テキストを簡潔なバージョンに変換することを目的としている。
既存の教師なし抽象的な要約モデルでは、リカレントニューラルネットワークフレームワークを活用している。
さらに、以前の要約モデルのほとんどは、事前訓練に利用可能な豊富なラベルのないコーパス資源を無視している。
そこで本稿では,大規模データに事前学習を行うトランスフォーマティブ型非教師なし要約システムtedを提案する。
まずニュース記事のリードバイアスを利用して、何百万ものラベルのないコーパスでモデルを事前訓練する。
次に,tedをテーマモデリングと自動エンコーダを用いて対象領域に微調整し,生成した要約の品質を向上させる。
特にTEDは、NYT、CNN/DM、およびさまざまなドキュメントスタイルの英語ギガワードデータセットにおいて、教師なしの抽象ベースラインをすべて上回っている。
さらに解析した結果,TED が生成する要約は抽象的であり,TED の目的関数の各成分は非常に効果的であることがわかった。
関連論文リスト
- Controllable Topic-Focused Abstractive Summarization [57.8015120583044]
制御された抽象的な要約は、特定の側面をカバーするために、ソース記事の凝縮したバージョンを作成することに焦点を当てる。
本稿では,トピックに着目した要約を生成可能なトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-12T03:51:38Z) - NEWTS: A Corpus for News Topic-Focused Summarization [9.872518517174498]
本稿では,CNN/Dailymailデータセットに基づく最初の話題要約コーパスを提案する。
提案手法の有効性を検証し,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-05-31T10:01:38Z) - SummVis: Interactive Visual Analysis of Models, Data, and Evaluation for
Text Summarization [14.787106201073154]
SummVisは抽象要約を視覚化するためのオープンソースツールです。
テキスト要約に関連するモデル、データ、評価メトリクスの詳細な分析を可能にする。
論文 参考訳(メタデータ) (2021-04-15T17:13:00Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z) - Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven
Cloze Reward [42.925345819778656]
本稿では,グラフ拡張と意味駆動型RewarDによる抽象要約のための新しいフレームワークであるASGARDを紹介する。
本稿では,2つのエンコーダ(シーケンシャル文書エンコーダ)とグラフ構造化エンコーダ(グラフ構造化エンコーダ)の利用を提案する。
その結果、我々のモデルは、New York TimesとCNN/Daily Mailのデータセットからの入力として、知識グラフのない変種よりもはるかに高いROUGEスコアを生成することがわかった。
論文 参考訳(メタデータ) (2020-05-03T18:23:06Z) - Neural Entity Summarization with Joint Encoding and Weak Supervision [29.26714907483851]
知識グラフでは、実体はしばしば多くの三つの事実によって記述される。
既存の実体化ソリューションは、主に教師なしである。
本稿では,新しいニューラルモデルに基づく教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-01T00:14:08Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。