Fugu-MT 論文翻訳(概要): Mitigating Data Scarceness through Data Synthesis, Augmentation and Curriculum for Abstractive Summarization

論文の概要: Mitigating Data Scarceness through Data Synthesis, Augmentation and Curriculum for Abstractive Summarization

arxiv url: http://arxiv.org/abs/2109.08569v1
Date: Fri, 17 Sep 2021 14:31:08 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-20 14:41:22.769199
Title: Mitigating Data Scarceness through Data Synthesis, Augmentation and Curriculum for Abstractive Summarization
Title（参考訳）: 抽象要約のためのデータ合成・拡張・カリキュラムによるデータスカースネスの緩和
Authors: Ahmed Magooda, Diane Litman
Abstract要約: 本稿では, パラフレージングを用いたデータ合成手法, サンプルミキシングによるデータ拡張手法, および特異性と抽象性に基づく2つの新しい難易度指標を用いたカリキュラム学習を紹介する。これら3つの手法が2つの要約モデルと2つの異なるデータセットの抽象的な要約を改善することに役立つことを示す実験を行った。
参考スコア（独自算出の注目度）: 0.685316573653194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores three simple data manipulation techniques (synthesis, augmentation, curriculum) for improving abstractive summarization models without the need for any additional data. We introduce a method of data synthesis with paraphrasing, a data augmentation technique with sample mixing, and curriculum learning with two new difficulty metrics based on specificity and abstractiveness. We conduct experiments to show that these three techniques can help improve abstractive summarization across two summarization models and two different small datasets. Furthermore, we show that these techniques can improve performance when applied in isolation and when combined.
Abstract（参考訳）: 本稿では,抽象的な要約モデルを改善するための3つの簡単なデータ操作手法(合成,拡張,カリキュラム)について検討する。本稿では,パラフレージングを用いたデータ合成手法,サンプル混合を用いたデータ拡張手法,および特異性と抽象性に基づく2つの新しい難易度指標を用いたカリキュラム学習を紹介する。これらの3つの手法は、2つの要約モデルと2つの異なる小さなデータセットの抽象的な要約を改善するのに役立つことを示す実験を行う。さらに,これらの技術は分離および組み合わせによる性能向上に有効であることを示す。

関連論文リスト

Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。 TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文参考訳（メタデータ） (2025-02-05T03:13:25Z)
Graphical Reasoning: LLM-based Semi-Open Relation Extraction [3.2586315449885106]
GPT-3.5でテキスト内学習を活用すれば,抽出プロセスが大幅に向上することを示す。本稿では,関係抽出を逐次的なサブタスクに分解する新しい図式推論手法を提案する。
論文参考訳（メタデータ） (2024-04-30T21:41:53Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Curriculum-Guided Abstractive Summarization [45.57561926145256]
最近のTransformerベースの要約モデルは、抽象的な要約に有望なアプローチを提供してきた。これらのモデルには2つの欠点がある:(1)コンテンツ選択が不十分な場合が多く、(2)トレーニング戦略があまり効率的ではないため、モデルの性能が制限される。本稿では,これらの落とし穴を補うための2つの方法について検討する。まず,デコーダ内に文のクロスアテンションモジュールを配置することでトランスフォーマーネットワークを拡張し,より健全なコンテンツの抽象化を促進する。
論文参考訳（メタデータ） (2023-02-02T11:09:37Z)
Salience Allocation as Guidance for Abstractive Summarization [61.31826412150143]
本稿では, サリエンセ・サリエンス・ガイダンス(SEASON, SaliencE Allocation as Guidance for Abstractive SummarizatiON)を用いた新しい要約手法を提案する。 SEASONは、サリエンス予測の割り当てを利用して抽象的な要約を導き、異なる抽象性のある記事に順応する。
論文参考訳（メタデータ） (2022-10-22T02:13:44Z)
DoubleMix: Simple Interpolation-Based Data Augmentation for Text Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。 DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文参考訳（メタデータ） (2022-09-12T15:01:04Z)
Unsupervised Opinion Summarization with Content Planning [58.5308638148329]
要約モデルにコンテンツプランニングを明示的に組み込むことで、より高い品質のアウトプットが得られることを示す。また、より自然な合成データセットを作成し、実世界の文書と要約のペアに似ている。当社のアプローチは,情報的,一貫性,流動的な要約を生成する上で,競争モデルよりも優れています。
論文参考訳（メタデータ） (2020-12-14T18:41:58Z)
Improving Zero and Few-Shot Abstractive Summarization with Intermediate Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文参考訳（メタデータ） (2020-10-24T08:36:49Z)
Topic-Guided Abstractive Text Summarization: a Joint Learning Approach [19.623946402970933]
本稿では,抽象テキスト要約のための新しいアプローチ,トピックガイドによる抽象要約を提案する。ニューラルネットワークをTransformerベースのシーケンス・ツー・シーケンス(seq2seq)モデルに結合学習フレームワークに組み込むことが目的だ。
論文参考訳（メタデータ） (2020-10-20T14:45:25Z)
Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文参考訳（メタデータ） (2020-10-06T02:51:02Z)
Combination of abstractive and extractive approaches for summarization of long scientific texts [0.0]
本稿では,抽出的手法と抽象的手法の両方を用いて,長い科学的文書の要約を生成する手法を提案する。抽出モデルと抽象モデルとを併用することにより,要約結果とROUGEスコアが有意に向上することを示した。
論文参考訳（メタデータ） (2020-06-09T15:38:21Z)
Abstractive Summarization for Low Resource Data using Domain Transfer and Data Synthesis [1.148539813252112]
本稿では,近年の抽象的な要約手法の性能向上のために,ドメイン転送とデータ合成について検討する。新聞データに基づいて訓練された美術モデルのチューニング状態は、学生の反射データの性能を高める可能性があることを示す。トレーニングに組み込むとROUGEスコアがさらに増加するテンプレートベースの新しいデータを合成するモデルを提案する。
論文参考訳（メタデータ） (2020-02-09T17:49:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。