論文の概要: Adversarial Word Dilution as Text Data Augmentation in Low-Resource
Regime
- arxiv url: http://arxiv.org/abs/2305.09287v2
- Date: Wed, 9 Aug 2023 10:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:18:12.355399
- Title: Adversarial Word Dilution as Text Data Augmentation in Low-Resource
Regime
- Title(参考訳): 低リソースレジームにおけるテキストデータ拡張としての逆語希釈
- Authors: Junfan Chen, Richong Zhang, Zheyan Luo, Chunming Hu, Yongyi Mao
- Abstract要約: 本稿では,テキストデータ拡張として強烈な正の例を生成できる逆単語解法(AWD)を提案する。
テキストデータの増大という考え方は、未知語埋め込みと重み付けして強正語の埋め込みを減らすことである。
3つのベンチマークデータセットに関する実証研究により、AWDはより効果的なデータ拡張を生成でき、最先端のテキストデータ拡張手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 35.95241861664597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is widely used in text classification, especially in the
low-resource regime where a few examples for each class are available during
training. Despite the success, generating data augmentations as hard positive
examples that may increase their effectiveness is under-explored. This paper
proposes an Adversarial Word Dilution (AWD) method that can generate hard
positive examples as text data augmentations to train the low-resource text
classification model efficiently. Our idea of augmenting the text data is to
dilute the embedding of strong positive words by weighted mixing with
unknown-word embedding, making the augmented inputs hard to be recognized as
positive by the classification model. We adversarially learn the dilution
weights through a constrained min-max optimization process with the guidance of
the labels. Empirical studies on three benchmark datasets show that AWD can
generate more effective data augmentations and outperform the state-of-the-art
text data augmentation methods. The additional analysis demonstrates that the
data augmentations generated by AWD are interpretable and can flexibly extend
to new examples without further training.
- Abstract(参考訳): データ拡張はテキスト分類、特にトレーニング中に各クラスのいくつかの例が利用できる低リソースのシステムで広く利用されている。
成功にもかかわらず、有効性を高める厳しいポジティブな例としてデータ拡張の生成は未検討である。
本稿では,低リソーステキスト分類モデルを効率的に学習するために,テキストデータ拡張としてハードポジティブな例を生成できるadversarial word dilution (awd)法を提案する。
テキストデータを増大させるという考え方は、未知語埋め込みと重み付けした混合によって強陽性語の埋め込みを減らし、分類モデルにより正と認識することが困難となる。
我々はラベルの指導により,制約付きmin-max最適化プロセスを通じて,希釈重みを相反的に学習する。
3つのベンチマークデータセットに関する実証研究は、awdがより効果的なデータ拡張を生成し、最先端のテキストデータ拡張方法を上回ることを示している。
追加の分析は、awdによって生成されたデータ拡張は解釈可能であり、さらなるトレーニングなしで柔軟に新しい例に拡張できることを示している。
関連論文リスト
- Evaluating the Effectiveness of Data Augmentation for Emotion Classification in Low-Resource Settings [1.387446067205368]
低リソースデータセットを用いたマルチラベル感情分類タスクにおける異なるデータ拡張手法の有効性を評価した。
Back Translationはオートエンコーダベースのアプローチよりも優れており、トレーニングインスタンス毎に複数の例を生成することで、さらなるパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2024-06-07T18:13:27Z) - Distributional Data Augmentation Methods for Low Resource Language [0.9208007322096533]
簡単なデータ拡張(EDA)は、同義語を注入して置換し、ランダムに置換することでトレーニングデータを増強する。
EDAの大きな障害の1つは、低リソース言語では容易に見つからない、多目的で完全な同義語辞書の必要性である。
本稿では,意味的単語コンテキスト情報と単語置換・拡張のためのパート・オブ・音声タグを利用する2つの拡張,EDDA(Easy Distributional Data Augmentation)とタイプ固有類似語置換(type specific similar word replacement,TSSR)を提案する。
論文 参考訳(メタデータ) (2023-09-09T19:01:59Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Syntax-driven Data Augmentation for Named Entity Recognition [3.0603554929274908]
低リソース設定では、データ拡張戦略が一般的に活用され、パフォーマンスが向上する。
名前付きエンティティ認識を改善するために,簡易なマスク付き言語モデル置換法と選択木変異を用いた拡張法を比較した。
論文 参考訳(メタデータ) (2022-08-15T01:24:55Z) - GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation [9.501648136713694]
GPT-3のような大規模言語モデルは優れた数ショット学習者であり、自然なテキストプロンプトで制御できる。
本稿では,大規模言語モデルを用いて現実的なテキストサンプルを生成する新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T11:39:33Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。