論文の概要: Data Augmentation Approaches in Natural Language Processing: A Survey
- arxiv url: http://arxiv.org/abs/2110.01852v1
- Date: Tue, 5 Oct 2021 07:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 21:41:25.215986
- Title: Data Augmentation Approaches in Natural Language Processing: A Survey
- Title(参考訳): 自然言語処理におけるデータ拡張アプローチ:調査
- Authors: Bohan Li, Yutai Hou, Wanxiang Che
- Abstract要約: データ拡張(DA)は、ディープラーニング技術が失敗する可能性のあるデータの不足シナリオを軽減する。
DA手法の主な焦点の1つは、トレーニングデータの多様性を改善することである。
DA手法をパラフレーズ化, ノイズ化, サンプリングなど, 拡張データの多様性に基づいて3つのカテゴリに分類する。
- 参考スコア(独自算出の注目度): 28.91744006146676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As an effective strategy, data augmentation (DA) alleviates data scarcity
scenarios where deep learning techniques may fail. It is widely applied in
computer vision then introduced to natural language processing and achieves
improvements in many tasks. One of the main focuses of the DA methods is to
improve the diversity of training data, thereby helping the model to better
generalize to unseen testing data. In this survey, we frame DA methods into
three categories based on the diversity of augmented data, including
paraphrasing, noising, and sampling. Our paper sets out to analyze DA methods
in detail according to the above categories. Further, we also introduce their
applications in NLP tasks as well as the challenges.
- Abstract(参考訳): 効果的な戦略として、データ拡張(DA)は、ディープラーニング技術が失敗する可能性のあるデータの不足シナリオを軽減する。
コンピュータビジョンに広く応用され、自然言語処理に導入され、多くのタスクで改善されている。
DA手法の主な焦点の1つは、トレーニングデータの多様性を改善することである。
本研究では, パラフレーズ, ノイズ, サンプリングなどの拡張データの多様性に基づいて, DA手法を3つのカテゴリに分類する。
本論文では, DA法について, 上記のカテゴリに応じて詳細に分析する。
さらに,nlpタスクにおけるアプリケーションや課題についても紹介する。
関連論文リスト
- Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and
Challenges [49.039080454730566]
データ拡張(DA)は、モデルパフォーマンスを向上させるための重要なテクニックとして現れている。
本稿では,大規模言語モデル(LLM)がDAに与える影響について検討する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Rethink the Effectiveness of Text Data Augmentation: An Empirical
Analysis [4.771833920251869]
我々は,7つの異なるNLPタスクの配列にまたがるバックトランスレーションと共役する3種類のFT手法の有効性を評価する。
以上の結果から,強化データによる事前学習が,下流タスクのFT性能を効果的に向上させることが明らかとなった。
我々の発見は、LMのパフォーマンスを高める強力なツールとして、DAの可能性を強調します。
論文 参考訳(メタデータ) (2023-06-13T10:14:58Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - Style Transfer as Data Augmentation: A Case Study on Named Entity
Recognition [17.892385961143173]
本稿では,テキストを高リソース領域から低リソース領域へ変換する手法を提案する。
我々は、データ選択のための重要な要素のセットとともに制約付き復号アルゴリズムを設計し、有効かつ一貫性のあるデータの生成を保証する。
我々のアプローチはデータの不足に対する実用的な解決策であり、他のNLPタスクに適用できることを期待しています。
論文 参考訳(メタデータ) (2022-10-14T16:02:03Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z) - Natural Language Processing Advancements By Deep Learning: A Survey [0.755972004983746]
この調査は、ディープラーニングの恩恵を受けたNLPのさまざまな側面と応用を分類し、対処する。
コアNLPタスクとアプリケーションをカバーするもので、深層学習手法とモデルがどのようにこれらの領域を前進させるかを記述している。
論文 参考訳(メタデータ) (2020-03-02T21:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。