論文の概要: Data Augmentation Approaches in Natural Language Processing: A Survey
- arxiv url: http://arxiv.org/abs/2110.01852v1
- Date: Tue, 5 Oct 2021 07:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 21:41:25.215986
- Title: Data Augmentation Approaches in Natural Language Processing: A Survey
- Title(参考訳): 自然言語処理におけるデータ拡張アプローチ:調査
- Authors: Bohan Li, Yutai Hou, Wanxiang Che
- Abstract要約: データ拡張(DA)は、ディープラーニング技術が失敗する可能性のあるデータの不足シナリオを軽減する。
DA手法の主な焦点の1つは、トレーニングデータの多様性を改善することである。
DA手法をパラフレーズ化, ノイズ化, サンプリングなど, 拡張データの多様性に基づいて3つのカテゴリに分類する。
- 参考スコア(独自算出の注目度): 28.91744006146676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As an effective strategy, data augmentation (DA) alleviates data scarcity
scenarios where deep learning techniques may fail. It is widely applied in
computer vision then introduced to natural language processing and achieves
improvements in many tasks. One of the main focuses of the DA methods is to
improve the diversity of training data, thereby helping the model to better
generalize to unseen testing data. In this survey, we frame DA methods into
three categories based on the diversity of augmented data, including
paraphrasing, noising, and sampling. Our paper sets out to analyze DA methods
in detail according to the above categories. Further, we also introduce their
applications in NLP tasks as well as the challenges.
- Abstract(参考訳): 効果的な戦略として、データ拡張(DA)は、ディープラーニング技術が失敗する可能性のあるデータの不足シナリオを軽減する。
コンピュータビジョンに広く応用され、自然言語処理に導入され、多くのタスクで改善されている。
DA手法の主な焦点の1つは、トレーニングデータの多様性を改善することである。
本研究では, パラフレーズ, ノイズ, サンプリングなどの拡張データの多様性に基づいて, DA手法を3つのカテゴリに分類する。
本論文では, DA法について, 上記のカテゴリに応じて詳細に分析する。
さらに,nlpタスクにおけるアプリケーションや課題についても紹介する。
関連論文リスト
- Generalized Group Data Attribution [28.056149996461286]
データ属性法は、個々のトレーニングデータポイントがモデル出力に与える影響を定量化する。
既存のDAメソッドはしばしば計算集約的であり、大規模な機械学習モデルに適用性を制限する。
本稿では,GA(Generalized Group Data Attribution, GGDA)フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-10-13T17:51:21Z) - Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models [33.488331159912136]
インストラクションチューニングは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
自然言語処理(NLP)とディープラーニングの分野において,データアセスメントと選択手法が提案されている。
本稿では,データアセスメントと選択に関する既存の文献を総合的にレビューし,特にLLMの命令チューニングについて述べる。
論文 参考訳(メタデータ) (2024-08-04T16:50:07Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges [47.45993726498343]
データ強化(DA)は、データ収集を必要とせずにトレーニング例を多様化することにより、モデルパフォーマンスを向上させる重要な手法として登場した。
本調査では,大規模言語モデル(LLM)がDAに与える影響,特に自然言語処理(NLP)以降の文脈において,それらが持つ固有の課題と機会に対処する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Rethink the Effectiveness of Text Data Augmentation: An Empirical
Analysis [4.771833920251869]
我々は,7つの異なるNLPタスクの配列にまたがるバックトランスレーションと共役する3種類のFT手法の有効性を評価する。
以上の結果から,強化データによる事前学習が,下流タスクのFT性能を効果的に向上させることが明らかとなった。
我々の発見は、LMのパフォーマンスを高める強力なツールとして、DAの可能性を強調します。
論文 参考訳(メタデータ) (2023-06-13T10:14:58Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - Style Transfer as Data Augmentation: A Case Study on Named Entity
Recognition [17.892385961143173]
本稿では,テキストを高リソース領域から低リソース領域へ変換する手法を提案する。
我々は、データ選択のための重要な要素のセットとともに制約付き復号アルゴリズムを設計し、有効かつ一貫性のあるデータの生成を保証する。
我々のアプローチはデータの不足に対する実用的な解決策であり、他のNLPタスクに適用できることを期待しています。
論文 参考訳(メタデータ) (2022-10-14T16:02:03Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。