論文の概要: An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP
- arxiv url: http://arxiv.org/abs/2106.07499v1
- Date: Mon, 14 Jun 2021 15:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 20:51:46.571046
- Title: An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP
- Title(参考訳): NLPにおける限定データ学習のためのデータ拡張に関する実証的研究
- Authors: Jiaao Chen, Derek Tam, Colin Raffel, Mohit Bansal and Diyi Yang
- Abstract要約: 豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
- 参考スコア(独自算出の注目度): 88.65488361532158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP has achieved great progress in the past decade through the use of neural
models and large labeled datasets. The dependence on abundant data prevents NLP
models from being applied to low-resource settings or novel tasks where
significant time, money, or expertise is required to label massive amounts of
textual data. Recently, data augmentation methods have been explored as a means
of improving data efficiency in NLP. To date, there has been no systematic
empirical overview of data augmentation for NLP in the limited labeled data
setting, making it difficult to understand which methods work in which
settings. In this paper, we provide an empirical survey of recent progress on
data augmentation for NLP in the limited labeled data setting, summarizing the
landscape of methods (including token-level augmentations, sentence-level
augmentations, adversarial augmentations, and hidden-space augmentations) and
carrying out experiments on 11 datasets covering topics/news classification,
inference tasks, paraphrasing tasks, and single-sentence tasks. Based on the
results, we draw several conclusions to help practitioners choose appropriate
augmentations in different settings and discuss the current challenges and
future directions for limited data learning in NLP.
- Abstract(参考訳): NLPは、ニューラルモデルと大きなラベル付きデータセットを使用することで、過去10年間で大きな進歩を遂げた。
豊富なデータへの依存は、大量のテキストデータをラベル付けするためにかなりの時間、お金、専門知識を必要とする低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
近年,NLPのデータ効率向上手法としてデータ拡張手法が検討されている。
現在までに、制限付きラベル付きデータ設定において、NLPのデータ拡張に関する体系的な実証的な概要は存在せず、どのメソッドがどの設定で機能するかを理解することは困難である。
本稿では,限定ラベル付きデータセットにおけるnlpのデータ拡張の最近の進展に関する実証調査を行い,手法の展望(トークンレベルの拡張,文レベルの拡張,adversarial augmentation,hidden-space拡張など)を要約し,トピック/ニュース分類,推論タスク,パラフレージングタスク,シングルセンテンスタスクを含む11のデータセットについて実験を行った。
これらの結果をもとに,実践者が異なる設定で適切な拡張を選択するのに役立ついくつかの結論を導き,NLPにおける限られたデータ学習の現在の課題と今後の方向性について議論する。
関連論文リスト
- A Practical Guide to Fine-tuning Language Models with Limited Data [9.413178499853156]
事前訓練されたLarge Language Models (LLM) を採用することは、膨大なデータ要件にもかかわらず、自然言語処理(NLP)における事実上の標準となっている。
限られたデータを用いたLLMの学習に焦点をあてた最近の研究の急増に触発された本研究では、データ不足の下流タスクにおけるモデル性能を最適化するための、近年のトランスファー学習アプローチについて調査する。
論文 参考訳(メタデータ) (2024-11-14T15:55:37Z) - A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Revealing Trends in Datasets from the 2022 ACL and EMNLP Conferences [16.66079305798581]
トランスフォーマーは、事前訓練された大規模言語モデル(PLM)を生んだ。
高品質なデータセットの必要性から、NLP研究者は、特定のニーズを満たす新しいデータセットの作成を継続している。
この研究は、これらのデータセットに含まれるトレンドと洞察を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2024-03-31T15:13:15Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Surveying the Landscape of Text Summarization with Deep Learning: A
Comprehensive Review [2.4185510826808487]
ディープラーニングは、言語データの複雑な表現を学習できるモデルの開発を可能にすることによって、自然言語処理(NLP)に革命をもたらした。
NLPのディープラーニングモデルは、通常、大量のデータを使用してディープニューラルネットワークをトレーニングし、言語データ内のパターンと関係を学習する。
テキスト要約にディープラーニングを適用することは、テキスト要約タスクを実行するためにディープニューラルネットワークを使用することを指す。
論文 参考訳(メタデータ) (2023-10-13T21:24:37Z) - Efficient Methods for Natural Language Processing: A Survey [76.34572727185896]
本研究は, 効率的なNLPにおける現在の手法と知見を合成し, 関連づけるものである。
我々は,限られた資源下でNLPを実施するためのガイダンスと,より効率的な手法を開発するための有望な研究方向性の両立を目指す。
論文 参考訳(メタデータ) (2022-08-31T20:32:35Z) - KnowDA: All-in-One Knowledge Mixture Model for Data Augmentation in
Few-Shot NLP [68.43279384561352]
既存のデータ拡張アルゴリズムはタスク非依存のルールや微調整の汎用事前訓練言語モデルを利用する。
これらの手法は、簡単なタスク固有の知識を持ち、単純なタスクにおいて弱いベースラインのための低品質な合成データを得るに限られる。
我々は,様々なNLPタスクを予め学習したエンコーダ/デコーダLMの知識混合データ拡張モデル(KnowDA)を提案する。
論文 参考訳(メタデータ) (2022-06-21T11:34:02Z) - A Survey of Data Augmentation Approaches for NLP [12.606206831969262]
データ拡張は最近、低リソースドメインでの作業の増加、新しいタスク、大規模ニューラルネットワークの人気により、NLPへの関心が高まっている。
この最近の騒動にもかかわらず、この領域は、おそらく言語データの離散的な性質によって生じる課題のために、まだ比較的未調査です。
文献を構造化した方法で要約することにより,NLPのデータ拡張に関する包括的かつ統一的な調査を行う。
論文 参考訳(メタデータ) (2021-05-07T06:03:45Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。