論文の概要: Data Augmentation for Text Generation Without Any Augmented Data
- arxiv url: http://arxiv.org/abs/2105.13650v1
- Date: Fri, 28 May 2021 07:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:53:35.387088
- Title: Data Augmentation for Text Generation Without Any Augmented Data
- Title(参考訳): 拡張データのないテキスト生成のためのデータ拡張
- Authors: Wei Bi, Huayang Li, Jiacheng Huang
- Abstract要約: 我々は,特定のマッピング関数によって構築された拡張データを用いることなく,テキスト生成タスクにおけるデータ拡張の問題を定式化する目的を定式化する。
提案手法は, 収束率保証付きテキスト生成タスクにおいて, 一般的な損失関数に対して効率よく最適化し, 適用することができる。
- 参考スコア(独自算出の注目度): 20.055500347892355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is an effective way to improve the performance of many
neural text generation models. However, current data augmentation methods need
to define or choose proper data mapping functions that map the original samples
into the augmented samples. In this work, we derive an objective to formulate
the problem of data augmentation on text generation tasks without any use of
augmented data constructed by specific mapping functions. Our proposed
objective can be efficiently optimized and applied to popular loss functions on
text generation tasks with a convergence rate guarantee. Experiments on five
datasets of two text generation tasks show that our approach can approximate or
even surpass popular data augmentation methods.
- Abstract(参考訳): データ拡張は、多くのニューラルテキスト生成モデルの性能を改善する効果的な方法である。
しかし、現在のデータ拡張方法は、元のサンプルを拡張サンプルにマッピングする適切なデータマッピング関数を定義し、選択する必要がある。
本研究では,特定のマッピング関数によって構築された拡張データを用いることなく,テキスト生成タスクにおけるデータ拡張の問題を定式化する目的を導出する。
提案手法は,収束率保証付きテキスト生成タスクの損失関数に対して効率よく最適化し,適用することができる。
2つのテキスト生成タスクの5つのデータセットに関する実験は、このアプローチが一般的なデータ拡張手法を近似あるいは超越することができることを示している。
関連論文リスト
- Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Benchmarking and Analyzing Generative Data for Visual Recognition [66.55174903469722]
この研究は生成的画像の影響を深く掘り下げ、主に外部データを利用するパラダイムを比較する。
我々は、2548のカテゴリを持つ22のデータセットからなるベンチマークである textbfGenBench を考案し、様々な視覚的認識タスクにまたがる生成データを評価した。
我々の徹底的なベンチマークと分析は、将来の調査における重要な課題を特定しながら、視覚認識における生成データの約束をスポットライトで示している。
論文 参考訳(メタデータ) (2023-07-25T17:59:59Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text
Retrieval [142.047662926209]
本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。
ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。
我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-07-29T01:21:54Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - DAGAM: Data Augmentation with Generation And Modification [3.063234089519162]
事前訓練された言語モデルでは、モデルのサイズが非常に大きいため、不適合がしばしば発生する。
本稿では,大規模言語モデルの不適合問題を軽減するために,3つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T07:20:45Z) - Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-26T13:16:07Z) - Data-to-Text Generation with Iterative Text Editing [3.42658286826597]
本稿では,反復的テキスト編集に基づく新しいデータ・テキスト生成手法を提案する。
まず、自明なテンプレートを用いてデータ項目をテキストに変換し、その後、文融合タスクのために訓練されたニューラルモデルにより結果のテキストを反復的に改善する。
モデルの出力は単純で、既製の事前訓練言語モデルで再帰的にフィルタリングされる。
論文 参考訳(メタデータ) (2020-11-03T13:32:38Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。