論文の概要: Data Boost: Text Data Augmentation Through Reinforcement Learning Guided
Conditional Generation
- arxiv url: http://arxiv.org/abs/2012.02952v1
- Date: Sat, 5 Dec 2020 05:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 12:13:56.134928
- Title: Data Boost: Text Data Augmentation Through Reinforcement Learning Guided
Conditional Generation
- Title(参考訳): データ強化:強化学習の条件付き生成によるテキストデータ拡張
- Authors: Ruibo Liu, Guangxuan Xu, Chenyan Jia, Weicheng Ma, Lili Wang, Soroush
Vosoughi
- Abstract要約: 我々は、強化学習による条件生成を通じてデータを増強するデータブーストを提案する。
我々は,5つの異なる分類器アーキテクチャの下で,3つの多様なテキスト分類タスクに対してデータブーストを評価する。
- 参考スコア(独自算出の注目度): 6.902878949331784
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data augmentation is proven to be effective in many NLU tasks, especially for
those suffering from data scarcity. In this paper, we present a powerful and
easy to deploy text augmentation framework, Data Boost, which augments data
through reinforcement learning guided conditional generation. We evaluate Data
Boost on three diverse text classification tasks under five different
classifier architectures. The result shows that Data Boost can boost the
performance of classifiers especially in low-resource data scenarios. For
instance, Data Boost improves F1 for the three tasks by 8.7% on average when
given only 10% of the whole data for training. We also compare Data Boost with
six prior text augmentation methods. Through human evaluations (N=178), we
confirm that Data Boost augmentation has comparable quality as the original
data with respect to readability and class consistency.
- Abstract(参考訳): データ拡張は多くのNLUタスク、特にデータ不足に苦しむ人たちに有効であることが証明されている。
本稿では,強化学習支援条件生成によるデータ拡張を実現する,強力でデプロイが容易なテキスト拡張フレームワークdata boostを提案する。
5つの異なる分類器アーキテクチャの下で、3つの多様なテキスト分類タスクでデータブーストを評価する。
その結果、特に低リソースのデータシナリオにおいて、Data Boostは分類器のパフォーマンスを向上できることがわかった。
例えば、トレーニング用のデータ全体の10%しか与えていない場合、3つのタスクのf1を平均で8.7%改善する。
また、Data Boostを6つの前のテキスト拡張方法と比較します。
人間の評価(N=178)により、可読性とクラス整合性に関して、データブースト拡張が元のデータと同等の品質であることを確認した。
関連論文リスト
- Reducing and Exploiting Data Augmentation Noise through Meta Reweighting
Contrastive Learning for Text Classification [3.9889306957591755]
本稿では,テキスト分類タスクにおける拡張データ/サンプルを用いたディープラーニングモデルの性能向上のための新しいフレームワークを提案する。
本稿では,拡張サンプルの重み/品質情報を効果的に活用するための,新しい重み依存型列列とデキューアルゴリズムを提案する。
本フレームワークでは,テキストCNNエンコーダの平均1.6%,テキストCNNエンコーダの平均4.3%,RoBERTaベースエンコーダの平均1.4%,絶対改善の4.4%を実現している。
論文 参考訳(メタデータ) (2024-09-26T02:19:13Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Learning towards Selective Data Augmentation for Dialogue Generation [52.540330534137794]
すべての事例が増補作業に有益である訳ではなく、増補に適した事例は以下の2つの属性に従うべきであると我々は主張する。
応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
論文 参考訳(メタデータ) (2023-03-17T01:26:39Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Data-Efficient Augmentation for Training Neural Networks [15.870155099135538]
本稿では,データポイントのサブセットを選択するための厳密な手法を提案する。
SVHNのCIFAR10では6.3倍,SVHNでは2.2倍の高速化を実現し,様々なサブセットサイズでベースラインを最大10%向上させる。
論文 参考訳(メタデータ) (2022-10-15T19:32:20Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - DAGAM: Data Augmentation with Generation And Modification [3.063234089519162]
事前訓練された言語モデルでは、モデルのサイズが非常に大きいため、不適合がしばしば発生する。
本稿では,大規模言語モデルの不適合問題を軽減するために,3つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T07:20:45Z) - Data Augmentation for Text Generation Without Any Augmented Data [20.055500347892355]
我々は,特定のマッピング関数によって構築された拡張データを用いることなく,テキスト生成タスクにおけるデータ拡張の問題を定式化する目的を定式化する。
提案手法は, 収束率保証付きテキスト生成タスクにおいて, 一般的な損失関数に対して効率よく最適化し, 適用することができる。
論文 参考訳(メタデータ) (2021-05-28T07:56:51Z) - Enhanced Offensive Language Detection Through Data Augmentation [2.2022484178680872]
ICWSM-2020 Data Challenge Task 2は、100万のラベル付きツイートを含むクラウドソースデータセットを使用して、攻撃的なコンテンツを特定することを目的としている。
データセットはクラス不均衡に悩まされており、特定のラベルは他のクラスと比較して非常に稀である。
本稿では,不均衡データと低リソースデータの分類性能を向上させる世代別データ拡張手法であるDagerを提案する。
論文 参考訳(メタデータ) (2020-12-05T05:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。