論文の概要: Neural Data-to-Text Generation with LM-based Text Augmentation
- arxiv url: http://arxiv.org/abs/2102.03556v1
- Date: Sat, 6 Feb 2021 10:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 05:52:43.192814
- Title: Neural Data-to-Text Generation with LM-based Text Augmentation
- Title(参考訳): LM-based Text Augmentationを用いたニューラルデータ・トゥ・テキスト生成
- Authors: Ernie Chang, Xiaoyu Shen, Dawei Zhu, Vera Demberg, Hui Su
- Abstract要約: 弱教師付きトレーニングパラダイムは10%未満のアノテーションで完全に教師付きセq2seqモデルより優れていることを示す。
すべての注釈付きデータを利用することで、標準のSeq2seqモデルの性能を5 BLEUポイント以上向上させることができる。
- 参考スコア(独自算出の注目度): 27.822282190362856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For many new application domains for data-to-text generation, the main
obstacle in training neural models consists of a lack of training data. While
usually large numbers of instances are available on the data side, often only
very few text samples are available. To address this problem, we here propose a
novel few-shot approach for this setting. Our approach automatically augments
the data available for training by (i) generating new text samples based on
replacing specific values by alternative ones from the same category, (ii)
generating new text samples based on GPT-2, and (iii) proposing an automatic
method for pairing the new text samples with data samples. As the text
augmentation can introduce noise to the training data, we use cycle consistency
as an objective, in order to make sure that a given data sample can be
correctly reconstructed after having been formulated as text (and that text
samples can be reconstructed from data). On both the E2E and WebNLG benchmarks,
we show that this weakly supervised training paradigm is able to outperform
fully supervised seq2seq models with less than 10% annotations. By utilizing
all annotated data, our model can boost the performance of a standard seq2seq
model by over 5 BLEU points, establishing a new state-of-the-art on both
datasets.
- Abstract(参考訳): データ-テキスト生成のための多くの新しいアプリケーションドメインでは、ニューラルネットワークモデルのトレーニングの主な障害は、トレーニングデータの欠如である。
通常、データ側では大量のインスタンスが利用できるが、多くの場合、ごくわずかなテキストサンプルしか利用できない。
この問題に対処するために,本稿では,この設定に対する新しい小切手アプローチを提案する。
提案手法は,(i)同一カテゴリから特定の値に置き換えた新たなテキストサンプルを生成すること,(ii)GPT-2に基づく新しいテキストサンプルを生成すること,(iii)新しいテキストサンプルとデータサンプルをペアリングする自動手法を提案することによって,トレーニング用データを自動的に増強する。
テキスト増補はトレーニングデータにノイズを生じさせるため、与えられたデータサンプルがテキストとして整形された後に正しく再構成可能であること(そして、テキストサンプルがデータから再構成可能であること)を確認するために、サイクル一貫性を目的とする。
E2EとWebNLGの両方のベンチマークでは、この弱い教師付きトレーニングパラダイムが10%未満のアノテーションで完全に監督されたseq2seqモデルより優れていることを示しています。
すべての注釈付きデータを活用することで、標準 seq2seq モデルのパフォーマンスを 5 以上の BLEU ポイントで向上させ、両方のデータセットに新しい最新技術を確立します。
関連論文リスト
- Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Faithful Low-Resource Data-to-Text Generation through Cycle Training [14.375070014155817]
近年,構造化データからテキストを生成する手法が大幅に進歩している。
サイクルトレーニングでは、互いに逆転する2つのモデルを使用する。
サイクルトレーニングが完全に教師付きアプローチとほぼ同等のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-24T06:44:42Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - A Data Cartography based MixUp for Pre-trained Language Models [47.90235939359225]
MixUpは、トレーニング中にランダムなトレーニングサンプルとラベルを組み合わせて追加のサンプルを生成するデータ拡張戦略である。
トレーニングダイナミクスを活用した新しいMixUp戦略であるTDMixUpを提案する。
提案手法は, トレーニングデータの少ないサブセットと強いベースラインとを比較した場合, また, NLPタスクの領域内および領域外の両方で, トレーニング済み言語モデルであるBERTのキャリブレーション誤差が低いことを実証的に検証した。
論文 参考訳(メタデータ) (2022-05-06T17:59:19Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - MeetSum: Transforming Meeting Transcript Summarization using
Transformers! [2.1915057426589746]
本稿では,Transformer ベースの Pointer Generator Network を用いて要約文を生成する。
このモデルは、エンコーダとデコーダとして2つのLSTMを使用し、入力されたテキストから単語をコピーするポインタネットワークと、語彙外単語を生成するジェネレータネットワークを使用する。
本稿では,ニュース要約データセット上でモデルをトレーニングし,ゼロショット学習を用いてミーティングデータセット上でテストすることで,AMIミーティングデータセット上でのトレーニングよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-08-13T16:34:09Z) - Data-to-Text Generation with Iterative Text Editing [3.42658286826597]
本稿では,反復的テキスト編集に基づく新しいデータ・テキスト生成手法を提案する。
まず、自明なテンプレートを用いてデータ項目をテキストに変換し、その後、文融合タスクのために訓練されたニューラルモデルにより結果のテキストを反復的に改善する。
モデルの出力は単純で、既製の事前訓練言語モデルで再帰的にフィルタリングされる。
論文 参考訳(メタデータ) (2020-11-03T13:32:38Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Have Your Text and Use It Too! End-to-End Neural Data-to-Text Generation
with Semantic Fidelity [3.8673630752805432]
本稿では,ニューラルでエンドツーエンドなデータ・ツー・テキスト生成システムであるDataTunerを紹介する。
我々は2段階の世代レベルのアプローチを採り、微調整言語モデルと意味的忠実さを組み合わせた。
我々は、DataTunerが4つの主要なD2Tデータセットにまたがる自動メトリクスにおいて、技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2020-04-08T11:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。