論文の概要: EPiDA: An Easy Plug-in Data Augmentation Framework for High Performance
Text Classification
- arxiv url: http://arxiv.org/abs/2204.11205v1
- Date: Sun, 24 Apr 2022 06:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 13:39:16.929459
- Title: EPiDA: An Easy Plug-in Data Augmentation Framework for High Performance
Text Classification
- Title(参考訳): EPiDA: 高性能テキスト分類のための簡易なプラグインデータ拡張フレームワーク
- Authors: Minyi Zhao, Lu Zhang, Yi Xu, Jiandong Ding, Jihong Guan, Shuigeng Zhou
- Abstract要約: 本稿では,効率的なテキスト分類を支援するための簡易でプラグイン型のデータ拡張フレームワーク EPiDA を提案する。
EPiDAは、データ生成を制御するために、相対エントロピー(REM)と条件最小エントロピー(CEM)の2つのメカニズムを採用している。
EPiDAは効率的な分類訓練のための効率的で継続的なデータ生成をサポートする。
- 参考スコア(独自算出の注目度): 34.15923302216751
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent works have empirically shown the effectiveness of data augmentation
(DA) in NLP tasks, especially for those suffering from data scarcity.
Intuitively, given the size of generated data, their diversity and quality are
crucial to the performance of targeted tasks. However, to the best of our
knowledge, most existing methods consider only either the diversity or the
quality of augmented data, thus cannot fully mine the potential of DA for NLP.
In this paper, we present an easy and plug-in data augmentation framework EPiDA
to support effective text classification. EPiDA employs two mechanisms:
relative entropy maximization (REM) and conditional entropy minimization (CEM)
to control data generation, where REM is designed to enhance the diversity of
augmented data while CEM is exploited to ensure their semantic consistency.
EPiDA can support efficient and continuous data generation for effective
classifier training. Extensive experiments show that EPiDA outperforms existing
SOTA methods in most cases, though not using any agent networks or pre-trained
generation networks, and it works well with various DA algorithms and
classification models. Code is available at
https://github.com/zhaominyiz/EPiDA.
- Abstract(参考訳): 近年,NLPタスクにおけるデータ拡張(DA)の有効性,特にデータ不足に悩む人々に対する効果が実証的に示されている。
直感的には、生成されたデータのサイズを考えると、その多様性と品質は目標とするタスクのパフォーマンスに不可欠である。
しかし、我々の知る限りでは、既存のほとんどの手法は、拡張データの多様性と品質の両方しか考慮していないため、NLPにおけるDAの可能性を完全には排除できない。
本稿では,効率的なテキスト分類を支援するための簡易でプラグイン型のデータ拡張フレームワーク EPiDA を提案する。
EPiDAはデータ生成を制御するために相対エントロピー最大化(REM)と条件エントロピー最小化(CEM)という2つのメカニズムを採用している。
EPiDAは効率的な分類器トレーニングのための効率的で継続的なデータ生成をサポートする。
大規模な実験により、EPiDAはエージェントネットワークや事前訓練された世代ネットワークを使わずに既存のSOTA法よりも優れており、様々なDAアルゴリズムや分類モデルとうまく機能することが示された。
コードはhttps://github.com/zhaominyiz/EPiDAで入手できる。
関連論文リスト
- Generalized Group Data Attribution [28.056149996461286]
データ属性法は、個々のトレーニングデータポイントがモデル出力に与える影響を定量化する。
既存のDAメソッドはしばしば計算集約的であり、大規模な機械学習モデルに適用性を制限する。
本稿では,GA(Generalized Group Data Attribution, GGDA)フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-10-13T17:51:21Z) - Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization [30.738229850748137]
MolPegは、一般化を強化するための分子データプルーニングフレームワークである。
これは、事前訓練されたモデルでデータプルーニングを適用する、ソースフリーなデータプルーニングシナリオに焦点を当てている。
4つのダウンストリームタスクで既存のDPメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2024-09-02T09:06:04Z) - ADLDA: A Method to Reduce the Harm of Data Distribution Shift in Data Augmentation [11.887799310374174]
本研究では,データ分散シフトの負の影響を軽減することを目的とした新しいデータ拡張手法であるADLDAを紹介する。
実験により、ADLDAは複数のデータセットにわたるモデル性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-05-11T03:20:35Z) - DreamDA: Generative Data Augmentation with Diffusion Models [68.22440150419003]
本稿では,新しい分類指向フレームワークDreamDAを提案する。
DreamDAは、オリジナルのデータのトレーニングイメージを種として考慮して、オリジナルのデータ分布に準拠する多様なサンプルを生成する。
また、生成したデータのラベルは、対応するシード画像のラベルと一致しない可能性があるため、擬似ラベルを生成するための自己学習パラダイムを導入する。
論文 参考訳(メタデータ) (2024-03-19T15:04:35Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - Generalization in Reinforcement Learning by Soft Data Augmentation [11.752595047069505]
SODA(Soft Data Augmentation)は、政策学習からAugmentationを分離する手法である。
我々は、最先端のビジョンベースRL法によるトレーニングにおいて、サンプル効率、一般化、安定性を著しく向上するSODAを見出した。
論文 参考訳(メタデータ) (2020-11-26T17:00:34Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。