論文の概要: FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2108.06332v1
- Date: Fri, 13 Aug 2021 17:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 13:54:20.012814
- Title: FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning
- Title(参考訳): FlipDA:Few-Shot Learningのための効果的でロバストなデータ拡張
- Authors: Jing Zhou, Yanan Zheng, Jie Tang, Jian Li, Zhilin Yang
- Abstract要約: 本稿では、生成モデルと分類器を併用してラベル付きデータを生成する新しいデータ拡張手法FlipDAを提案する。
実験の結果、FlipDAは有効性と堅牢性の間の良好なトレードオフを達成し、多くのタスクを大幅に改善する一方で、他のタスクに悪影響を及ぼさないことがわかった。
- 参考スコア(独自算出の注目度): 27.871007011425775
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Most previous methods for text data augmentation are limited to simple tasks
and weak baselines. We explore data augmentation on hard tasks (i.e., few-shot
natural language understanding) and strong baselines (i.e., pretrained models
with over one billion parameters). Under this setting, we reproduced a large
number of previous augmentation methods and found that these methods bring
marginal gains at best and sometimes degrade the performance much. To address
this challenge, we propose a novel data augmentation method FlipDA that jointly
uses a generative model and a classifier to generate label-flipped data.
Central to the idea of FlipDA is the discovery that generating label-flipped
data is more crucial to the performance than generating label-preserved data.
Experiments show that FlipDA achieves a good tradeoff between effectiveness and
robustness---it substantially improves many tasks while not negatively
affecting the others.
- Abstract(参考訳): テキストデータ拡張のほとんどの以前の方法は、単純なタスクと弱いベースラインに限定されている。
ハードタスク(すなわち、少数の自然言語理解)と強いベースライン(つまり10億以上のパラメータを持つ事前学習されたモデル)のデータ拡張について検討する。
この条件下では, 先行手法の多くを再現し, これらの手法が限界ゲインを最善にもたらし, 時には性能を劣化させることがわかった。
この課題に対処するために、生成モデルと分類器を併用してラベルフリップデータを生成する新しいデータ拡張手法FlipDAを提案する。
flipdaのアイデアの中心は、ラベル付きデータを生成するよりも、ラベル付きデータを生成することがパフォーマンスにとって重要であることの発見である。
実験の結果、FlipDAは有効性と堅牢性の間の良好なトレードオフを達成し、多くのタスクを大幅に改善する一方で、他のタスクに悪影響を及ぼさないことがわかった。
関連論文リスト
- On-the-fly Data Augmentation for Forecasting with Deep Learning [0.35998666903987897]
我々はこの問題に対処するためにOnDAT(On-the-fly Data Augmentation for Time series)を提案する。
各イテレーションで新しい拡張データセットを生成することで、モデルは絶えず変化する拡張データバリエーションに晒される。
提案手法を,最先端のディープラーニング予測手法と,合計75797時系列を含む8つのベンチマークデータセットを用いて検証した。
論文 参考訳(メタデータ) (2024-04-25T17:16:13Z) - On Evaluation Protocols for Data Augmentation in a Limited Data Scenario [11.09784120582206]
古典的なデータ拡張(文を修飾する)は、単により優れた微調整を行う方法であることを示す。
さらに,ChatGPT や LLama2 のような対話型エージェントによるゼロショットDAでは,性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-22T16:42:37Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - RoPDA: Robust Prompt-based Data Augmentation for Low-Resource Named
Entity Recognition [10.03246698225533]
低リソースNERのためのロバストプロンプトベースデータ拡張(RoPDA)
継続的なプロンプトを持つ事前学習言語モデル(PLM)に基づいて、RoPDAはエンティティ拡張とコンテキスト拡張を実行する。
異なるドメインの3つのベンチマークの実験では、RoPDAは強いベースラインで大幅に改善されている。
論文 参考訳(メタデータ) (2023-07-11T14:44:14Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - EPiDA: An Easy Plug-in Data Augmentation Framework for High Performance
Text Classification [34.15923302216751]
本稿では,効率的なテキスト分類を支援するための簡易でプラグイン型のデータ拡張フレームワーク EPiDA を提案する。
EPiDAは、データ生成を制御するために、相対エントロピー(REM)と条件最小エントロピー(CEM)の2つのメカニズムを採用している。
EPiDAは効率的な分類訓練のための効率的で継続的なデータ生成をサポートする。
論文 参考訳(メタデータ) (2022-04-24T06:53:48Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Generative Feature Replay with Orthogonal Weight Modification for
Continual Learning [20.8966035274874]
生成的再生は、破滅的な忘れを和らげるために、以前のタスクの擬似データを生成し再生する有望な戦略である。
生成モデルを用いて垂直層の特徴を再現することを提案する; 2) 自己監督型補助タスクを活用して特徴の安定性をさらに向上する。
いくつかのデータセットにおける実験結果から,我々の手法は常に強力なOWMよりも大幅に改善されていることが分かる。
論文 参考訳(メタデータ) (2020-05-07T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。