論文の概要: Augmentor or Filter? Reconsider the Role of Pre-trained Language Model
in Text Classification Augmentation
- arxiv url: http://arxiv.org/abs/2210.02941v1
- Date: Thu, 6 Oct 2022 14:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:26:36.947029
- Title: Augmentor or Filter? Reconsider the Role of Pre-trained Language Model
in Text Classification Augmentation
- Title(参考訳): Augmentorかフィルタか?
テキスト分類強化における事前学習言語モデルの役割の再考
- Authors: Heng Yang, Ke Li
- Abstract要約: 既存のテキスト拡張メソッドは、通常、公開データセットのパフォーマンス劣化を引き起こす。
本稿では,テキスト拡張における言語モデルの役割を再考するBOOSTAUGを提案する。
- 参考スコア(独自算出の注目度): 12.772780082672316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text augmentation is one of the most effective techniques to solve the
critical problem of insufficient data in text classification. Existing text
augmentation methods achieve hopeful performance in few-shot text data
augmentation. However, these methods usually lead to performance degeneration
on public datasets due to poor quality augmentation instances. Our study shows
that even employing pre-trained language models, existing text augmentation
methods generate numerous low-quality instances and lead to the feature space
shift problem in augmentation instances. However, we note that the pre-trained
language model is good at finding low-quality instances provided that it has
been fine-tuned on the target dataset. To alleviate the feature space shift and
performance degeneration in existing text augmentation methods, we propose
BOOSTAUG, which reconsiders the role of the language model in text augmentation
and emphasizes the augmentation instance filtering rather than generation. We
evaluate BOOSTAUG on both sentence-level text classification and aspect-based
sentiment classification. The experimental results on seven commonly used text
classification datasets show that our augmentation method obtains
state-of-the-art performance. Moreover, BOOSTAUG is a flexible framework; we
release the code which can help improve existing augmentation methods.
- Abstract(参考訳): テキスト拡張は、テキスト分類におけるデータ不足の重要な問題を解決する最も効果的な手法の1つである。
既存のテキスト増補手法は、数ショットのテキストデータ増補において希望的な性能を達成する。
しかしながら、これらのメソッドは通常、品質向上の悪いインスタンスのために、公開データセットのパフォーマンス劣化につながる。
本研究は,事前学習した言語モデルを用いても,既存のテキスト拡張手法が多数の低品質インスタンスを生成し,拡張インスタンスにおける特徴空間シフト問題を引き起こすことを示す。
しかし、トレーニング済みの言語モデルは、ターゲットデータセット上で微調整された場合、低品質のインスタンスを見つけるのに優れていることに留意する。
既存のテキスト拡張手法における特徴空間シフトと性能劣化を軽減するため,テキスト拡張における言語モデルの役割を再考するBOOSTAUGを提案する。
文レベルのテキスト分類とアスペクトベースの感情分類の両方を用いてBOOSTAUGを評価する。
7つのテキスト分類データセットに対する実験結果から,本手法が最先端の性能を得ることを示す。
さらに、BOOSTAUGは柔軟なフレームワークであり、既存の拡張メソッドを改善するのに役立つコードをリリースします。
関連論文リスト
- Retrieval is Accurate Generation [104.21926758253286]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Selective Text Augmentation with Word Roles for Low-Resource Text
Classification [3.4806267677524896]
異なる単語はテキスト分類において異なる役割を担い、それによってテキスト拡張の適切な役割を戦略的に選択することができる。
本研究では,まず,テキスト中の単語とテキストカテゴリの関係を,統計的相関と意味的類似性の観点から同定する。
本稿では,STA(Selective Text Augmentation)と呼ばれる新たな拡張手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T08:13:11Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - What Have Been Learned & What Should Be Learned? An Empirical Study of
How to Selectively Augment Text for Classification [0.0]
本稿では,STA(Selective Text Augmentation)を用いてテキストを選択的に拡張する手法を提案する。
4つの英語と中国語のテキスト分類ベンチマークデータセットの実験により、STAは非選択的なテキスト拡張法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2021-09-01T04:03:11Z) - GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation [9.501648136713694]
GPT-3のような大規模言語モデルは優れた数ショット学習者であり、自然なテキストプロンプトで制御できる。
本稿では,大規模言語モデルを用いて現実的なテキストサンプルを生成する新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T11:39:33Z) - Data Augmentation in Natural Language Processing: A Novel Text
Generation Approach for Long and Short Text Classifiers [8.19984844136462]
本稿では,長文と短文の分類器の性能向上に適したテキスト生成手法を提案し,評価する。
シミュレーションされた低データレギュレーションでは、最大15.53%の加算精度ゲインが達成される。
さまざまな種類のデータセットに対するアプローチを成功に導くための意味とパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-26T13:16:07Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。