論文の概要: AEDA: An Easier Data Augmentation Technique for Text Classification
- arxiv url: http://arxiv.org/abs/2108.13230v1
- Date: Mon, 30 Aug 2021 13:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:46:27.951192
- Title: AEDA: An Easier Data Augmentation Technique for Text Classification
- Title(参考訳): AEDA: テキスト分類のためのより簡単なデータ拡張手法
- Authors: Akbar Karimi, Leonardo Rossi, Andrea Prati
- Abstract要約: AEDAは原文に句読点をランダムに挿入する。
文中の位置を変えながら単語の順序を保ち、より一般化されたパフォーマンスをもたらす。
AEDA拡張データを用いたトレーニングでは,5つのデータセットのEDA拡張データよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 2.4634850020708616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes AEDA (An Easier Data Augmentation) technique to help
improve the performance on text classification tasks. AEDA includes only random
insertion of punctuation marks into the original text. This is an easier
technique to implement for data augmentation than EDA method (Wei and Zou,
2019) with which we compare our results. In addition, it keeps the order of the
words while changing their positions in the sentence leading to a better
generalized performance. Furthermore, the deletion operation in EDA can cause
loss of information which, in turn, misleads the network, whereas AEDA
preserves all the input information. Following the baseline, we perform
experiments on five different datasets for text classification. We show that
using the AEDA-augmented data for training, the models show superior
performance compared to using the EDA-augmented data in all five datasets. The
source code is available for further study and reproduction of the results.
- Abstract(参考訳): 本稿では,テキスト分類タスクの性能向上を支援するため,AEDA(An Easier Data Augmentation)手法を提案する。
AEDAは原文への句読点のランダムな挿入のみを含む。
これはEDA法(Wei and Zou, 2019)よりもデータ拡張のための実装が容易なテクニックであり、その結果を比較します。
さらに、文中の位置を変えながら単語の順序を保ち、より一般化されたパフォーマンスをもたらす。
さらに、EDAにおける削除操作は、ネットワークを誤解させる情報を失う可能性があるが、AEDAは全ての入力情報を保存している。
ベースラインに従って、テキスト分類のための5つの異なるデータセットの実験を行う。
AEDA拡張データを用いたトレーニングでは,5つのデータセットのEDA拡張データよりも優れた性能を示した。
ソースコードは、結果のさらなる研究と再現のために利用できる。
関連論文リスト
- On Evaluation Protocols for Data Augmentation in a Limited Data Scenario [11.09784120582206]
古典的なデータ拡張(文を修飾する)は、単により優れた微調整を行う方法であることを示す。
さらに,ChatGPT や LLama2 のような対話型エージェントによるゼロショットDAでは,性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-22T16:42:37Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Distributional Data Augmentation Methods for Low Resource Language [0.9208007322096533]
簡単なデータ拡張(EDA)は、同義語を注入して置換し、ランダムに置換することでトレーニングデータを増強する。
EDAの大きな障害の1つは、低リソース言語では容易に見つからない、多目的で完全な同義語辞書の必要性である。
本稿では,意味的単語コンテキスト情報と単語置換・拡張のためのパート・オブ・音声タグを利用する2つの拡張,EDDA(Easy Distributional Data Augmentation)とタイプ固有類似語置換(type specific similar word replacement,TSSR)を提案する。
論文 参考訳(メタデータ) (2023-09-09T19:01:59Z) - GDA: Generative Data Augmentation Techniques for Relation Extraction
Tasks [81.51314139202152]
本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。
低リソース環境下での3つのデータセットによる実験結果から,GDAはエム2.0%のF1改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-26T06:21:01Z) - Data Augmentation using Transformers and Similarity Measures for
Improving Arabic Text Classification [0.0]
本稿では,最近の強力なモデリング手法であるAraGPT-2を用いた新しいアラビアDA手法を提案する。
生成された文は、ユークリッド、コサイン、ジャカード、BLEU距離を用いて、文脈、意味、多様性、新規性の観点から評価される。
AraSarcasm, ASTD, ATT, MOVIEの4つの感情アラビアデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-12-28T16:38:43Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - EPiDA: An Easy Plug-in Data Augmentation Framework for High Performance
Text Classification [34.15923302216751]
本稿では,効率的なテキスト分類を支援するための簡易でプラグイン型のデータ拡張フレームワーク EPiDA を提案する。
EPiDAは、データ生成を制御するために、相対エントロピー(REM)と条件最小エントロピー(CEM)の2つのメカニズムを採用している。
EPiDAは効率的な分類訓練のための効率的で継続的なデータ生成をサポートする。
論文 参考訳(メタデータ) (2022-04-24T06:53:48Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - Unsupervised Data Augmentation with Naive Augmentation and without
Unlabeled Data [40.82826366059613]
Unsupervised Data Augmentation (UDA) は、モデルの予測の違いを解析するために一貫性損失を適用する半教師付き手法である。
本稿では,UDAを再検討し,その有効性を示す。
一貫性の喪失を適用することで、ラベルのないデータなしで有意義な利益が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-22T18:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。