論文の概要: Augmentor or Filter? Reconsider the Role of Pre-trained Language Model
in Text Classification Augmentation
- arxiv url: http://arxiv.org/abs/2210.02941v1
- Date: Thu, 6 Oct 2022 14:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:26:36.947029
- Title: Augmentor or Filter? Reconsider the Role of Pre-trained Language Model
in Text Classification Augmentation
- Title(参考訳): Augmentorかフィルタか?
テキスト分類強化における事前学習言語モデルの役割の再考
- Authors: Heng Yang, Ke Li
- Abstract要約: 既存のテキスト拡張メソッドは、通常、公開データセットのパフォーマンス劣化を引き起こす。
本稿では,テキスト拡張における言語モデルの役割を再考するBOOSTAUGを提案する。
- 参考スコア(独自算出の注目度): 12.772780082672316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text augmentation is one of the most effective techniques to solve the
critical problem of insufficient data in text classification. Existing text
augmentation methods achieve hopeful performance in few-shot text data
augmentation. However, these methods usually lead to performance degeneration
on public datasets due to poor quality augmentation instances. Our study shows
that even employing pre-trained language models, existing text augmentation
methods generate numerous low-quality instances and lead to the feature space
shift problem in augmentation instances. However, we note that the pre-trained
language model is good at finding low-quality instances provided that it has
been fine-tuned on the target dataset. To alleviate the feature space shift and
performance degeneration in existing text augmentation methods, we propose
BOOSTAUG, which reconsiders the role of the language model in text augmentation
and emphasizes the augmentation instance filtering rather than generation. We
evaluate BOOSTAUG on both sentence-level text classification and aspect-based
sentiment classification. The experimental results on seven commonly used text
classification datasets show that our augmentation method obtains
state-of-the-art performance. Moreover, BOOSTAUG is a flexible framework; we
release the code which can help improve existing augmentation methods.
- Abstract(参考訳): テキスト拡張は、テキスト分類におけるデータ不足の重要な問題を解決する最も効果的な手法の1つである。
既存のテキスト増補手法は、数ショットのテキストデータ増補において希望的な性能を達成する。
しかしながら、これらのメソッドは通常、品質向上の悪いインスタンスのために、公開データセットのパフォーマンス劣化につながる。
本研究は,事前学習した言語モデルを用いても,既存のテキスト拡張手法が多数の低品質インスタンスを生成し,拡張インスタンスにおける特徴空間シフト問題を引き起こすことを示す。
しかし、トレーニング済みの言語モデルは、ターゲットデータセット上で微調整された場合、低品質のインスタンスを見つけるのに優れていることに留意する。
既存のテキスト拡張手法における特徴空間シフトと性能劣化を軽減するため,テキスト拡張における言語モデルの役割を再考するBOOSTAUGを提案する。
文レベルのテキスト分類とアスペクトベースの感情分類の両方を用いてBOOSTAUGを評価する。
7つのテキスト分類データセットに対する実験結果から,本手法が最先端の性能を得ることを示す。
さらに、BOOSTAUGは柔軟なフレームワークであり、既存の拡張メソッドを改善するのに役立つコードをリリースします。
関連論文リスト
- PromptMix: A Class Boundary Augmentation Method for Large Language Model
Distillation [19.351192775314612]
そこで本研究では,LLMの命令に従う能力を利用して,より有用な拡張データを生成する手法を提案する。
具体的PromptMix法は,1) クラス境界付近で挑戦的なテキスト拡張を生成するが,境界例の生成はデータセットにおける偽陽性のリスクを増加させる。
Banking77, TREC6, Subjectivity (SUBJ) と Twitter Complaints の4つのテキスト分類データセットに対して, 提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-10-22T05:43:23Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - Distributional Data Augmentation Methods for Low Resource Language [0.9208007322096533]
簡単なデータ拡張(EDA)は、同義語を注入して置換し、ランダムに置換することでトレーニングデータを増強する。
EDAの大きな障害の1つは、低リソース言語では容易に見つからない、多目的で完全な同義語辞書の必要性である。
本稿では,意味的単語コンテキスト情報と単語置換・拡張のためのパート・オブ・音声タグを利用する2つの拡張,EDDA(Easy Distributional Data Augmentation)とタイプ固有類似語置換(type specific similar word replacement,TSSR)を提案する。
論文 参考訳(メタデータ) (2023-09-09T19:01:59Z) - GDA: Generative Data Augmentation Techniques for Relation Extraction
Tasks [81.51314139202152]
本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。
低リソース環境下での3つのデータセットによる実験結果から,GDAはエム2.0%のF1改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-26T06:21:01Z) - Adversarial Word Dilution as Text Data Augmentation in Low-Resource
Regime [35.95241861664597]
本稿では,テキストデータ拡張として強烈な正の例を生成できる逆単語解法(AWD)を提案する。
テキストデータの増大という考え方は、未知語埋め込みと重み付けして強正語の埋め込みを減らすことである。
3つのベンチマークデータセットに関する実証研究により、AWDはより効果的なデータ拡張を生成でき、最先端のテキストデータ拡張手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T08:46:11Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。
大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-10-21T22:47:37Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Data Boost: Text Data Augmentation Through Reinforcement Learning Guided
Conditional Generation [6.902878949331784]
我々は、強化学習による条件生成を通じてデータを増強するデータブーストを提案する。
我々は,5つの異なる分類器アーキテクチャの下で,3つの多様なテキスト分類タスクに対してデータブーストを評価する。
論文 参考訳(メタデータ) (2020-12-05T05:21:57Z) - Conditioned Text Generation with Transfer for Closed-Domain Dialogue
Systems [65.48663492703557]
条件付き変分オートエンコーダを用いて,意図特化文の生成を最適に学習し,制御する方法を示す。
クエリ転送と呼ばれる新しいプロトコルを導入し、大規模で遅延のないデータセットを活用できるようにします。
論文 参考訳(メタデータ) (2020-11-03T14:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。