論文の概要: Abstractive Summarization for Low Resource Data using Domain Transfer
and Data Synthesis
- arxiv url: http://arxiv.org/abs/2002.03407v1
- Date: Sun, 9 Feb 2020 17:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 14:18:04.515213
- Title: Abstractive Summarization for Low Resource Data using Domain Transfer
and Data Synthesis
- Title(参考訳): ドメイン転送とデータ合成を用いた低リソースデータの抽象要約
- Authors: Ahmed Magooda, Diane Litman
- Abstract要約: 本稿では,近年の抽象的な要約手法の性能向上のために,ドメイン転送とデータ合成について検討する。
新聞データに基づいて訓練された美術モデルのチューニング状態は、学生の反射データの性能を高める可能性があることを示す。
トレーニングに組み込むとROUGEスコアがさらに増加するテンプレートベースの新しいデータを合成するモデルを提案する。
- 参考スコア(独自算出の注目度): 1.148539813252112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training abstractive summarization models typically requires large amounts of
data, which can be a limitation for many domains. In this paper we explore
using domain transfer and data synthesis to improve the performance of recent
abstractive summarization methods when applied to small corpora of student
reflections. First, we explored whether tuning state of the art model trained
on newspaper data could boost performance on student reflection data.
Evaluations demonstrated that summaries produced by the tuned model achieved
higher ROUGE scores compared to model trained on just student reflection data
or just newspaper data. The tuned model also achieved higher scores compared to
extractive summarization baselines, and additionally was judged to produce more
coherent and readable summaries in human evaluations. Second, we explored
whether synthesizing summaries of student data could additionally boost
performance. We proposed a template-based model to synthesize new data, which
when incorporated into training further increased ROUGE scores. Finally, we
showed that combining data synthesis with domain transfer achieved higher ROUGE
scores compared to only using one of the two approaches.
- Abstract(参考訳): 抽象的な要約モデルの訓練は通常大量のデータを必要とし、多くの領域の制限となる。
本稿では,学生リフレクションの小さなコーパスに適用することで,近年の抽象要約手法の性能を向上させるために,ドメイン転送とデータ合成について検討する。
まず,新聞データにトレーニングされたアートモデルのチューニング状態が学生のリフレクションデータのパフォーマンスを向上させるかどうかを検討した。
評価の結果, 調整モデルにより生成された要約は, 学生反射データや新聞データにのみ訓練されたモデルと比較して高いROUGEスコアを得た。
調律モデルはまた,抽出的要約ベースラインよりも高いスコアを達成し,人間の評価においてより一貫性と可読性のある要約を生成すると判断された。
第2に,学生データの要約を合成することで,さらなるパフォーマンス向上が期待できるか検討した。
我々は,新しいデータを合成するためのテンプレートベースモデルを提案し,トレーニングに組み込むとROUGEスコアがさらに増加することを示した。
最後に、データ合成とドメイン転送を組み合わせることで、ROUGEのスコアは2つのアプローチのうちの1つで比較できることを示した。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Feedback-guided Data Synthesis for Imbalanced Classification [10.836265321046561]
有用な合成サンプルを用いて静的データセットを拡張するためのフレームワークを提案する。
サンプルはタスクの実際のデータのサポートに近づき、十分に多様であることに気付きました。
ImageNet-LTでは、表現不足のクラスでは4%以上改善され、最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-09-29T21:47:57Z) - Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。
異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文 参考訳(メタデータ) (2022-12-19T23:45:05Z) - MeetSum: Transforming Meeting Transcript Summarization using
Transformers! [2.1915057426589746]
本稿では,Transformer ベースの Pointer Generator Network を用いて要約文を生成する。
このモデルは、エンコーダとデコーダとして2つのLSTMを使用し、入力されたテキストから単語をコピーするポインタネットワークと、語彙外単語を生成するジェネレータネットワークを使用する。
本稿では,ニュース要約データセット上でモデルをトレーニングし,ゼロショット学習を用いてミーティングデータセット上でテストすることで,AMIミーティングデータセット上でのトレーニングよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-08-13T16:34:09Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z) - Learning to summarize from human feedback [18.964548137315333]
人間の嗜好を最適化するモデルを訓練することで、要約品質を著しく改善できることを示す。
我々は、Reddit投稿のTL;DRデータセットのバージョンに適用し、我々のモデルは、人間の参照サマリーと、教師付き学習だけで微調整されたはるかに大きなモデルの両方を著しく上回っていることを発見した。
我々のモデルは、CNN/DMニュース記事にも移行し、ニュース特有の微調整なしに、人間の参照とほぼ同等の要約を生成する。
論文 参考訳(メタデータ) (2020-09-02T19:54:41Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。