論文の概要: SDA: Improving Text Generation with Self Data Augmentation
- arxiv url: http://arxiv.org/abs/2101.03236v1
- Date: Sat, 2 Jan 2021 01:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 10:34:49.109027
- Title: SDA: Improving Text Generation with Self Data Augmentation
- Title(参考訳): SDA:Self Data Augmentationによるテキスト生成の改善
- Authors: Ping Yu, Ruiyi Zhang, Yang Zhao, Yizhe Zhang, Chunyuan Li, Changyou
Chen
- Abstract要約: 自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
- 参考スコア(独自算出の注目度): 88.24594090105899
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Data augmentation has been widely used to improve deep neural networks in
many research fields, such as computer vision. However, less work has been done
in the context of text, partially due to its discrete nature and the complexity
of natural languages. In this paper, we propose to improve the standard maximum
likelihood estimation (MLE) paradigm by incorporating a self-imitation-learning
phase for automatic data augmentation. Unlike most existing sentence-level
augmentation strategies, which are only applied to specific models, our method
is more general and could be easily adapted to any MLE-based training
procedure. In addition, our framework allows task-specific evaluation metrics
to be designed to flexibly control the generated sentences, for example, in
terms of controlling vocabulary usage and avoiding nontrivial repetitions.
Extensive experimental results demonstrate the superiority of our method on two
synthetic and several standard real datasets, significantly improving related
baselines.
- Abstract(参考訳): データ拡張はコンピュータビジョンなど多くの研究分野でディープニューラルネットワークを改善するために広く使われている。
しかし、テキストの文脈では、その離散的な性質と自然言語の複雑さによって、より少ない作業がなされている。
本稿では,自動データ拡張のための自己模倣学習フェーズを組み込むことにより,mle(standard maximum likelihood estimation)パラダイムを改善することを提案する。
特定のモデルにのみ適用可能な既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,MLEベースの訓練手順にも容易に適用できる。
さらに,本フレームワークは,例えば語彙使用の制御や非自明な繰り返しの回避などにおいて,生成した文を柔軟に制御するタスク固有の評価指標を設計することができる。
広範な実験結果から,2つの合成データと数種類の標準実データに対する本手法の優位性が示され,関連するベースラインを著しく改善した。
- 全文 参考訳へのリンク
関連論文リスト
- Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Improving Compositional Generalization with Self-Training for
Data-to-Text Generation [36.973617793800315]
データ・テキスト・タスクにおける現在の生成モデルの合成一般化について検討する。
構成的気象データセットの構造変化をシミュレートすることにより、T5モデルは目に見えない構造に一般化できないことを示す。
擬似応答選択のための細調整BLEURTを用いた自己学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-10-16T04:26:56Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - On Adversarial Robustness of Synthetic Code Generation [1.2559148369195197]
本論文は, 逆数例の異なるクラスを通して, 有意なデータセットバイアスの存在を示す。
バイアスを低減し,有効性を示すために,いくつかのデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2021-06-22T09:37:48Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-26T13:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。