論文の概要: SoftEDA: Rethinking Rule-Based Data Augmentation with Soft Labels
- arxiv url: http://arxiv.org/abs/2402.05591v1
- Date: Thu, 8 Feb 2024 11:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 15:13:49.129919
- Title: SoftEDA: Rethinking Rule-Based Data Augmentation with Soft Labels
- Title(参考訳): SoftEDA: ルールベースのデータ拡張をソフトラベルで再考
- Authors: Juhwan Choi, Kyohoon Jin, Junho Lee, Sangmin Song, Youngbin Kim
- Abstract要約: ルールベースのテキストデータ拡張は、単純さのため、NLPタスクに広く利用されている。
拡張データにソフトラベルを適用する手法を提案する。
- 参考スコア(独自算出の注目度): 17.542386087870412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rule-based text data augmentation is widely used for NLP tasks due to its
simplicity. However, this method can potentially damage the original meaning of
the text, ultimately hurting the performance of the model. To overcome this
limitation, we propose a straightforward technique for applying soft labels to
augmented data. We conducted experiments across seven different classification
tasks and empirically demonstrated the effectiveness of our proposed approach.
We have publicly opened our source code for reproducibility.
- Abstract(参考訳): ルールベースのテキストデータ拡張は、単純さのためにNLPタスクに広く利用されている。
しかし、この方法はテキストの本来の意味を損なう可能性があり、最終的にはモデルの性能を損なう可能性がある。
この制限を克服するために,ソフトラベルを拡張データに適用するための簡単な手法を提案する。
7つの異なる分類タスクで実験を行い,提案手法の有効性を実証した。
再現性のためのソースコードを公開しました。
関連論文リスト
- Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Adverb Is the Key: Simple Text Data Augmentation with Adverb Deletion [8.406910685074136]
ルールベースの手法は、コスト効率のために現実世界のアプリケーションに広く採用されている。
副詞の直接削除によってこのような現象を回避する新しいテキストデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2024-03-29T07:01:39Z) - AutoAugment Is What You Need: Enhancing Rule-based Augmentation Methods
in Low-resource Regimes [17.542386087870412]
ルールベースの拡張方法は、その単純さのため、現実世界のアプリケーションで広く採用されている。
この問題を解決するためにAutoAugmentを適用することを提案する。
論文 参考訳(メタデータ) (2024-02-08T11:36:23Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - RoPDA: Robust Prompt-based Data Augmentation for Low-Resource Named
Entity Recognition [10.03246698225533]
低リソースNERのためのロバストプロンプトベースデータ拡張(RoPDA)
継続的なプロンプトを持つ事前学習言語モデル(PLM)に基づいて、RoPDAはエンティティ拡張とコンテキスト拡張を実行する。
異なるドメインの3つのベンチマークの実験では、RoPDAは強いベースラインで大幅に改善されている。
論文 参考訳(メタデータ) (2023-07-11T14:44:14Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Unsupervised Domain Adaptive Salient Object Detection Through
Uncertainty-Aware Pseudo-Label Learning [104.00026716576546]
そこで本研究では,手動のアノテーションを使わずに,自然に高いピクセルラベル品質を有する合成・クリーンなラベルから,サリエンスを学習することを提案する。
提案手法は,複数のベンチマークデータセット上で,既存の最先端の深層教師なしSOD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-26T16:03:55Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。