論文の概要: An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP
- arxiv url: http://arxiv.org/abs/2106.07499v1
- Date: Mon, 14 Jun 2021 15:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 20:51:46.571046
- Title: An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP
- Title(参考訳): NLPにおける限定データ学習のためのデータ拡張に関する実証的研究
- Authors: Jiaao Chen, Derek Tam, Colin Raffel, Mohit Bansal and Diyi Yang
- Abstract要約: 豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
- 参考スコア(独自算出の注目度): 88.65488361532158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP has achieved great progress in the past decade through the use of neural
models and large labeled datasets. The dependence on abundant data prevents NLP
models from being applied to low-resource settings or novel tasks where
significant time, money, or expertise is required to label massive amounts of
textual data. Recently, data augmentation methods have been explored as a means
of improving data efficiency in NLP. To date, there has been no systematic
empirical overview of data augmentation for NLP in the limited labeled data
setting, making it difficult to understand which methods work in which
settings. In this paper, we provide an empirical survey of recent progress on
data augmentation for NLP in the limited labeled data setting, summarizing the
landscape of methods (including token-level augmentations, sentence-level
augmentations, adversarial augmentations, and hidden-space augmentations) and
carrying out experiments on 11 datasets covering topics/news classification,
inference tasks, paraphrasing tasks, and single-sentence tasks. Based on the
results, we draw several conclusions to help practitioners choose appropriate
augmentations in different settings and discuss the current challenges and
future directions for limited data learning in NLP.
- Abstract(参考訳): NLPは、ニューラルモデルと大きなラベル付きデータセットを使用することで、過去10年間で大きな進歩を遂げた。
豊富なデータへの依存は、大量のテキストデータをラベル付けするためにかなりの時間、お金、専門知識を必要とする低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
近年,NLPのデータ効率向上手法としてデータ拡張手法が検討されている。
現在までに、制限付きラベル付きデータ設定において、NLPのデータ拡張に関する体系的な実証的な概要は存在せず、どのメソッドがどの設定で機能するかを理解することは困難である。
本稿では,限定ラベル付きデータセットにおけるnlpのデータ拡張の最近の進展に関する実証調査を行い,手法の展望(トークンレベルの拡張,文レベルの拡張,adversarial augmentation,hidden-space拡張など)を要約し,トピック/ニュース分類,推論タスク,パラフレージングタスク,シングルセンテンスタスクを含む11のデータセットについて実験を行った。
これらの結果をもとに,実践者が異なる設定で適切な拡張を選択するのに役立ついくつかの結論を導き,NLPにおける限られたデータ学習の現在の課題と今後の方向性について議論する。
関連論文リスト
- Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and
Challenges [49.039080454730566]
データ拡張(DA)は、モデルパフォーマンスを向上させるための重要なテクニックとして現れている。
本稿では,大規模言語モデル(LLM)がDAに与える影響について検討する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Surveying the Landscape of Text Summarization with Deep Learning: A
Comprehensive Review [2.4185510826808487]
ディープラーニングは、言語データの複雑な表現を学習できるモデルの開発を可能にすることによって、自然言語処理(NLP)に革命をもたらした。
NLPのディープラーニングモデルは、通常、大量のデータを使用してディープニューラルネットワークをトレーニングし、言語データ内のパターンと関係を学習する。
テキスト要約にディープラーニングを適用することは、テキスト要約タスクを実行するためにディープニューラルネットワークを使用することを指す。
論文 参考訳(メタデータ) (2023-10-13T21:24:37Z) - Semi-supervised Relation Extraction via Data Augmentation and
Consistency-training [2.2209333405427585]
半教師付き学習手法は,ラベル付きデータポイントからの学習に加えて,非ラベル付きデータを活用することを目的としている。
近年,一貫性に基づく半教師付き学習手法と組み合わさった強力なデータ拡張が,SSLタスクにおける最先端技術である。
本研究では,制御されたテキスト生成の最近の進歩を活用し,関係抽出タスクの高品質なデータ拡張を行う。
論文 参考訳(メタデータ) (2023-06-16T19:45:42Z) - Efficient Methods for Natural Language Processing: A Survey [76.34572727185896]
本研究は, 効率的なNLPにおける現在の手法と知見を合成し, 関連づけるものである。
我々は,限られた資源下でNLPを実施するためのガイダンスと,より効率的な手法を開発するための有望な研究方向性の両立を目指す。
論文 参考訳(メタデータ) (2022-08-31T20:32:35Z) - KnowDA: All-in-One Knowledge Mixture Model for Data Augmentation in
Few-Shot NLP [68.43279384561352]
既存のデータ拡張アルゴリズムはタスク非依存のルールや微調整の汎用事前訓練言語モデルを利用する。
これらの手法は、簡単なタスク固有の知識を持ち、単純なタスクにおいて弱いベースラインのための低品質な合成データを得るに限られる。
我々は,様々なNLPタスクを予め学習したエンコーダ/デコーダLMの知識混合データ拡張モデル(KnowDA)を提案する。
論文 参考訳(メタデータ) (2022-06-21T11:34:02Z) - A Survey of Data Augmentation Approaches for NLP [12.606206831969262]
データ拡張は最近、低リソースドメインでの作業の増加、新しいタスク、大規模ニューラルネットワークの人気により、NLPへの関心が高まっている。
この最近の騒動にもかかわらず、この領域は、おそらく言語データの離散的な性質によって生じる課題のために、まだ比較的未調査です。
文献を構造化した方法で要約することにより,NLPのデータ拡張に関する包括的かつ統一的な調査を行う。
論文 参考訳(メタデータ) (2021-05-07T06:03:45Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - DQI: Measuring Data Quality in NLP [22.54066527822898]
データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。
SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
論文 参考訳(メタデータ) (2020-05-02T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。