論文の概要: Abstractive Text Summarization Using the BRIO Training Paradigm
- arxiv url: http://arxiv.org/abs/2305.13696v1
- Date: Tue, 23 May 2023 05:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 18:55:15.521497
- Title: Abstractive Text Summarization Using the BRIO Training Paradigm
- Title(参考訳): BRIOトレーニングパラダイムを用いた抽象テキスト要約
- Authors: Khang Nhut Lam and Thieu Gia Doan and Khang Thua Pham and Jugal Kalita
- Abstract要約: 本稿では,事前学習した言語モデルを微調整することで抽象要約を改善する手法を提案する。
VieSumと呼ばれるベトナム語のためのテキスト要約データセットを構築します。
我々は、CNNDMとVieSumデータセット上でBRIOパラダイムで訓練された抽象的な要約モデルを用いて実験を行う。
- 参考スコア(独自算出の注目度): 2.102846336724103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Summary sentences produced by abstractive summarization models may be
coherent and comprehensive, but they lack control and rely heavily on reference
summaries. The BRIO training paradigm assumes a non-deterministic distribution
to reduce the model's dependence on reference summaries, and improve model
performance during inference. This paper presents a straightforward but
effective technique to improve abstractive summaries by fine-tuning pre-trained
language models, and training them with the BRIO paradigm. We build a text
summarization dataset for Vietnamese, called VieSum. We perform experiments
with abstractive summarization models trained with the BRIO paradigm on the
CNNDM and the VieSum datasets. The results show that the models, trained on
basic hardware, outperform all existing abstractive summarization models,
especially for Vietnamese.
- Abstract(参考訳): 抽象的な要約モデルによって生成された要約文は一貫性があり包括的であるが、制御に欠け、参照要約に大きく依存している。
BRIOトレーニングパラダイムは、モデルが参照要約に依存することを減らすために非決定論的分布を仮定し、推論時のモデル性能を改善する。
本稿では,事前学習した言語モデルを微調整し,BRIOパラダイムで学習することにより,抽象要約を改善する手法を提案する。
ベトナム語向けのテキスト要約データセットであるviesumを構築します。
我々はcnndmとviesumデータセットでbrioパラダイムで訓練された抽象的要約モデルを用いて実験を行う。
その結果、基本的なハードウェアで訓練されたモデルは、既存の抽象要約モデル、特にベトナムのモデルよりも優れていることが判明した。
関連論文リスト
- From News to Summaries: Building a Hungarian Corpus for Extractive and Abstractive Summarization [0.19107347888374507]
HunSum-2は、抽象的および抽出的要約モデルのトレーニングに適したオープンソースのハンガリー語コーパスである。
データセットは、徹底的なクリーニングを行うCommon Crawlコーパスのセグメントから組み立てられる。
論文 参考訳(メタデータ) (2024-04-04T16:07:06Z) - Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。
我々は,教師モデルとしてPythia-2.8Bから出発する。
我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文 参考訳(メタデータ) (2024-03-20T17:42:08Z) - How Ready are Pre-trained Abstractive Models and LLMs for Legal Case
Judgement Summarization? [4.721618284417204]
近年、抽象的な要約モデルが人気を集めている。
法的なドメイン固有の事前訓練された抽象要約モデルが利用可能になった。
汎用ドメイン事前訓練大型言語モデル(LLM)は高品質なテキストを生成することが知られている。
論文 参考訳(メタデータ) (2023-06-02T03:16:19Z) - Abstractive Summary Generation for the Urdu Language [1.9594639581421422]
我々は、自己認識機構を利用して入力テキストを符号化し、要約を生成するトランスフォーマーベースのモデルを用いる。
実験の結果,我々のモデルは文法的に正し,意味的に意味のある要約を生成できることがわかった。
論文 参考訳(メタデータ) (2023-05-25T15:55:42Z) - Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。
異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文 参考訳(メタデータ) (2022-12-19T23:45:05Z) - Correcting Diverse Factual Errors in Abstractive Summarization via
Post-Editing and Language Model Infilling [56.70682379371534]
提案手法は, 誤要約の修正において, 従来手法よりもはるかに優れていることを示す。
我々のモデルであるFactEditは、CNN/DMで11点、XSumで31点以上のファクトリティスコアを改善する。
論文 参考訳(メタデータ) (2022-10-22T07:16:19Z) - COLO: A Contrastive Learning based Re-ranking Framework for One-Stage
Summarization [84.70895015194188]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。
COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文 参考訳(メタデータ) (2022-09-29T06:11:21Z) - Dialogue Summarization with Supporting Utterance Flow Modeling and Fact
Regularization [58.965859508695225]
本稿では、2つの新しいモジュールを用いた対話要約のためのエンドツーエンドニューラルネットワークを提案する。
サポートされた発話フローモデリングは、前者の発話から後者へのフォーカスを円滑にシフトさせることで、コヒーレントな要約を生成するのに役立つ。
事実の正則化は、モデルトレーニング中に生成された要約は、基礎と真実の要約と実際に一致するように促します。
論文 参考訳(メタデータ) (2021-08-03T03:09:25Z) - Liputan6: A Large-scale Indonesian Dataset for Text Summarization [43.375797352517765]
オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。
事前学習した言語モデルを用いて,データセット上のベンチマーク抽出および抽象的要約手法を開発する。
論文 参考訳(メタデータ) (2020-11-02T02:01:12Z) - Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。
我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文 参考訳(メタデータ) (2020-10-06T02:51:02Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。