論文の概要: AutoAugment Is What You Need: Enhancing Rule-based Augmentation Methods
in Low-resource Regimes
- arxiv url: http://arxiv.org/abs/2402.05584v1
- Date: Thu, 8 Feb 2024 11:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 15:30:34.175519
- Title: AutoAugment Is What You Need: Enhancing Rule-based Augmentation Methods
in Low-resource Regimes
- Title(参考訳): AutoAugmentが必要なのは - 低リソースレジームにおけるルールベースの拡張メソッドの強化
- Authors: Juhwan Choi, Kyohoon Jin, Junho Lee, Sangmin Song and Youngbin Kim
- Abstract要約: ルールベースの拡張方法は、その単純さのため、現実世界のアプリケーションで広く採用されている。
この問題を解決するためにAutoAugmentを適用することを提案する。
- 参考スコア(独自算出の注目度): 17.542386087870412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text data augmentation is a complex problem due to the discrete nature of
sentences. Although rule-based augmentation methods are widely adopted in
real-world applications because of their simplicity, they suffer from potential
semantic damage. Previous researchers have suggested easy data augmentation
with soft labels (softEDA), employing label smoothing to mitigate this problem.
However, finding the best factor for each model and dataset is challenging;
therefore, using softEDA in real-world applications is still difficult. In this
paper, we propose adapting AutoAugment to solve this problem. The experimental
results suggest that the proposed method can boost existing augmentation
methods and that rule-based methods can enhance cutting-edge pre-trained
language models. We offer the source code.
- Abstract(参考訳): テキストデータの増大は、文の離散的な性質のために複雑な問題である。
ルールベースの拡張メソッドは、その単純さのため、現実世界のアプリケーションで広く採用されているが、潜在的な意味的損傷に苦しんでいる。
従来の研究者は、この問題を緩和するためにラベルの平滑化を利用したソフトラベル(softEDA)によるデータ拡張を簡単に提案していた。
しかし、各モデルとデータセットに最適な要素を見つけることは難しいため、現実のアプリケーションでSoftEDAを使用することは依然として困難である。
本稿では,この問題に対する適応型自動学習を提案する。
実験結果から,提案手法は既存の拡張法を強化し,ルールベース手法は最先端の事前学習言語モデルを強化できることが示唆された。
ソースコードを提供する。
関連論文リスト
- Improving Socratic Question Generation using Data Augmentation and Preference Optimization [2.1485350418225244]
大規模言語モデル(LLM)は、学生のためのソクラテス的質問を自動的に生成することにより、人間の努力を強化するために使用できる。
これらの LLM をプロンプトする既存の手法は、時に無効な出力を生成する。
本研究では,既存のソクラテス質問データセットを,特定の方法で無効な質問で強化するデータ拡張手法を提案する。
次に,LLama 2 などのオープンソース LLM の最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T00:08:20Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - SoftEDA: Rethinking Rule-Based Data Augmentation with Soft Labels [17.542386087870412]
ルールベースのテキストデータ拡張は、単純さのため、NLPタスクに広く利用されている。
拡張データにソフトラベルを適用する手法を提案する。
論文 参考訳(メタデータ) (2024-02-08T11:44:25Z) - Adversarial Word Dilution as Text Data Augmentation in Low-Resource
Regime [35.95241861664597]
本稿では,テキストデータ拡張として強烈な正の例を生成できる逆単語解法(AWD)を提案する。
テキストデータの増大という考え方は、未知語埋め込みと重み付けして強正語の埋め込みを減らすことである。
3つのベンチマークデータセットに関する実証研究により、AWDはより効果的なデータ拡張を生成でき、最先端のテキストデータ拡張手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T08:46:11Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Adversarial Auto-Augment with Label Preservation: A Representation
Learning Principle Guided Approach [95.74102207187545]
本研究では,事前自由な自律的データ拡張の目的が表現学習の原則から導出可能であることを示す。
そこで我々は,既存の手法にシームレスに最適化し,シームレスに統合できる目的に対して,実用的なサロゲートを提案する。
論文 参考訳(メタデータ) (2022-11-02T02:02:51Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - TaylorGAN: Neighbor-Augmented Policy Update for Sample-Efficient Natural
Language Generation [79.4205462326301]
TaylorGANは関数ベースの自然言語生成のための新しいアプローチである。
オフポリシー更新による勾配推定と1階のTaylor拡張が強化される。
これにより、より小さなバッチサイズで、スクラッチからNLGモデルをトレーニングすることができます。
論文 参考訳(メタデータ) (2020-11-27T02:26:15Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z) - Variational Item Response Theory: Fast, Accurate, and Expressive [11.927952652448285]
項目応答理論(IRT)は,質問に対する回答に基づいて人間を理解するためのユビキタスモデルである。
IRTの変分ベイズ推定アルゴリズムを導入し,精度を犠牲にすることなく高速かつスケール可能であることを示す。
この手法を認知科学と教育から5つの大規模項目応答データセットに適用すると、ログの可能性が向上し、欠落したデータを出力する可能性が向上する。
論文 参考訳(メタデータ) (2020-02-01T20:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。