論文の概要: BootAug: Boosting Text Augmentation via Hybrid Instance Filtering Framework
- arxiv url: http://arxiv.org/abs/2210.02941v2
- Date: Mon, 1 Apr 2024 15:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 14:21:15.324131
- Title: BootAug: Boosting Text Augmentation via Hybrid Instance Filtering Framework
- Title(参考訳): BootAug: ハイブリッドインスタンスフィルタリングフレームワークによるテキスト拡張
- Authors: Heng Yang, Ke Li,
- Abstract要約: 本稿では,事前学習言語モデルに基づくハイブリッドなインスタンスフィルタリングフレームワーク(BootAug)を提案する。
BootAugは、分類精度を$approx 2-3%で向上する。
当社は,大規模なデータセット上での既存の拡張メソッドの改善を支援するために,コードをリリースしています。
- 参考スコア(独自算出の注目度): 7.622122513456483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text augmentation is an effective technique for addressing the problem of insufficient data in natural language processing. However, existing text augmentation methods tend to focus on few-shot scenarios and usually perform poorly on large public datasets. Our research indicates that existing augmentation methods often generate instances with shifted feature spaces, which leads to a drop in performance on the augmented data (for example, EDA generally loses $\approx 2\%$ in aspect-based sentiment classification). To address this problem, we propose a hybrid instance-filtering framework (BootAug) based on pre-trained language models that can maintain a similar feature space with natural datasets. BootAug is transferable to existing text augmentation methods (such as synonym substitution and back translation) and significantly improves the augmentation performance by $\approx 2-3\%$ in classification accuracy. Our experimental results on three classification tasks and nine public datasets show that BootAug addresses the performance drop problem and outperforms state-of-the-art text augmentation methods. Additionally, we release the code to help improve existing augmentation methods on large datasets.
- Abstract(参考訳): テキスト拡張は、自然言語処理における不十分なデータの問題に対処する有効な手法である。
しかし、既存のテキスト拡張メソッドは、ほとんどショットのシナリオにフォーカスする傾向があり、通常、大規模な公開データセットではパフォーマンスが良くない。
我々の研究は、既存の拡張手法が、変化した特徴空間を持つインスタンスを生成することが多いことを示唆している(例えば、EDAはアスペクトベースの感情分類において、一般的に$\approx 2\%$を失う)。
この問題に対処するため,自然データセットで類似した特徴空間を維持可能な事前学習言語モデルに基づくハイブリッドなインスタンスフィルタリングフレームワーク(BootAug)を提案する。
BootAugは、既存のテキスト拡張メソッド(シノニム置換やバック翻訳など)に転送可能であり、分類精度が$\approx 2-3\%$で拡張性能を大幅に向上する。
3つの分類タスクと9つの公開データセットに関する実験結果から、BootAugはパフォーマンス低下問題に対処し、最先端のテキスト拡張手法より優れていることが示された。
さらに,大規模なデータセット上で既存の拡張メソッドを改善するためのコードもリリースしています。
関連論文リスト
- PromptMix: A Class Boundary Augmentation Method for Large Language Model
Distillation [19.351192775314612]
そこで本研究では,LLMの命令に従う能力を利用して,より有用な拡張データを生成する手法を提案する。
具体的PromptMix法は,1) クラス境界付近で挑戦的なテキスト拡張を生成するが,境界例の生成はデータセットにおける偽陽性のリスクを増加させる。
Banking77, TREC6, Subjectivity (SUBJ) と Twitter Complaints の4つのテキスト分類データセットに対して, 提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-10-22T05:43:23Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - Distributional Data Augmentation Methods for Low Resource Language [0.9208007322096533]
簡単なデータ拡張(EDA)は、同義語を注入して置換し、ランダムに置換することでトレーニングデータを増強する。
EDAの大きな障害の1つは、低リソース言語では容易に見つからない、多目的で完全な同義語辞書の必要性である。
本稿では,意味的単語コンテキスト情報と単語置換・拡張のためのパート・オブ・音声タグを利用する2つの拡張,EDDA(Easy Distributional Data Augmentation)とタイプ固有類似語置換(type specific similar word replacement,TSSR)を提案する。
論文 参考訳(メタデータ) (2023-09-09T19:01:59Z) - GDA: Generative Data Augmentation Techniques for Relation Extraction
Tasks [81.51314139202152]
本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。
低リソース環境下での3つのデータセットによる実験結果から,GDAはエム2.0%のF1改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-26T06:21:01Z) - Adversarial Word Dilution as Text Data Augmentation in Low-Resource
Regime [35.95241861664597]
本稿では,テキストデータ拡張として強烈な正の例を生成できる逆単語解法(AWD)を提案する。
テキストデータの増大という考え方は、未知語埋め込みと重み付けして強正語の埋め込みを減らすことである。
3つのベンチマークデータセットに関する実証研究により、AWDはより効果的なデータ拡張を生成でき、最先端のテキストデータ拡張手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T08:46:11Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Exploring Representation-Level Augmentation for Code Search [50.94201167562845]
我々は、データ処理やトレーニングを必要としない表現レベルでデータ(コードとクエリの両方)を増強する拡張手法について検討する。
大規模公開データセット上で,最先端のコード検索モデルを用いた表現レベル向上手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-10-21T22:47:37Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Data Boost: Text Data Augmentation Through Reinforcement Learning Guided
Conditional Generation [6.902878949331784]
我々は、強化学習による条件生成を通じてデータを増強するデータブーストを提案する。
我々は,5つの異なる分類器アーキテクチャの下で,3つの多様なテキスト分類タスクに対してデータブーストを評価する。
論文 参考訳(メタデータ) (2020-12-05T05:21:57Z) - Conditioned Text Generation with Transfer for Closed-Domain Dialogue
Systems [65.48663492703557]
条件付き変分オートエンコーダを用いて,意図特化文の生成を最適に学習し,制御する方法を示す。
クエリ転送と呼ばれる新しいプロトコルを導入し、大規模で遅延のないデータセットを活用できるようにします。
論文 参考訳(メタデータ) (2020-11-03T14:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。