論文の概要: A Survey of Data Augmentation Approaches for NLP
- arxiv url: http://arxiv.org/abs/2105.03075v1
- Date: Fri, 7 May 2021 06:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:30:40.928656
- Title: A Survey of Data Augmentation Approaches for NLP
- Title(参考訳): NLPにおけるデータ拡張手法の検討
- Authors: Steven Y. Feng, Varun Gangal, Jason Wei, Sarath Chandar, Soroush
Vosoughi, Teruko Mitamura, Eduard Hovy
- Abstract要約: データ拡張は最近、低リソースドメインでの作業の増加、新しいタスク、大規模ニューラルネットワークの人気により、NLPへの関心が高まっている。
この最近の騒動にもかかわらず、この領域は、おそらく言語データの離散的な性質によって生じる課題のために、まだ比較的未調査です。
文献を構造化した方法で要約することにより,NLPのデータ拡張に関する包括的かつ統一的な調査を行う。
- 参考スコア(独自算出の注目度): 12.606206831969262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation has recently seen increased interest in NLP due to more
work in low-resource domains, new tasks, and the popularity of large-scale
neural networks that require large amounts of training data. Despite this
recent upsurge, this area is still relatively underexplored, perhaps due to the
challenges posed by the discrete nature of language data. In this paper, we
present a comprehensive and unifying survey of data augmentation for NLP by
summarizing the literature in a structured manner. We first introduce and
motivate data augmentation for NLP, and then discuss major methodologically
representative approaches. Next, we highlight techniques that are used for
popular NLP applications and tasks. We conclude by outlining current challenges
and directions for future research. Overall, our paper aims to clarify the
landscape of existing literature in data augmentation for NLP and motivate
additional work in this area.
- Abstract(参考訳): データ拡張は最近、低リソースドメインでの作業の増加、新しいタスク、大量のトレーニングデータを必要とする大規模ニューラルネットワークの人気により、NLPへの関心が高まっている。
この最近の上昇にもかかわらず、この領域はまだ比較的過小評価されており、おそらく言語データの離散的な性質によって引き起こされる課題のためだろう。
本稿では,NLPの文献を構造化された方法で要約することにより,NLPのデータ拡張に関する包括的かつ統一的な調査を行う。
まず,nlpのためのデータ拡張の導入と動機付けを行い,次に主要な方法論的手法について論じる。
次に、一般的なNLPアプリケーションやタスクに使用されるテクニックを強調します。
今後の研究の課題と方向性を概説して締めくくる。
全体として,本論文は,nlpのデータ拡張における既存文献の展望を明らかにし,この分野における追加作業の動機づけを目的としている。
関連論文リスト
- The Nature of NLP: Analyzing Contributions in NLP Papers [77.31665252336157]
我々は,NLP研究を構成するものについて,研究論文から定量的に検討する。
以上の結果から,NLPにおける機械学習の関与は,90年代前半から増加傾向にあることが明らかとなった。
2020年以降、言語と人々への関心が復活した。
論文 参考訳(メタデータ) (2024-09-29T01:29:28Z) - The What, Why, and How of Context Length Extension Techniques in Large
Language Models -- A Detailed Survey [6.516561905186376]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)における顕著なブレークスルーを表している。
本研究では,文脈長の延長に伴う固有の課題について検討し,研究者が採用した既存戦略の概要を整理した。
評価基準について,研究コミュニティ内に合意が存在するか検討し,さらに合意が必要な分野を特定する。
論文 参考訳(メタデータ) (2024-01-15T18:07:21Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Surveying the Landscape of Text Summarization with Deep Learning: A
Comprehensive Review [2.4185510826808487]
ディープラーニングは、言語データの複雑な表現を学習できるモデルの開発を可能にすることによって、自然言語処理(NLP)に革命をもたらした。
NLPのディープラーニングモデルは、通常、大量のデータを使用してディープニューラルネットワークをトレーニングし、言語データ内のパターンと関係を学習する。
テキスト要約にディープラーニングを適用することは、テキスト要約タスクを実行するためにディープニューラルネットワークを使用することを指す。
論文 参考訳(メタデータ) (2023-10-13T21:24:37Z) - Exploring the Landscape of Natural Language Processing Research [3.3916160303055567]
NLP関連のいくつかのアプローチが研究コミュニティで調査されている。
確立したトピックを分類し、傾向を特定し、今後の研究分野を概説する総合的研究はいまだに残っていない。
その結果,NLPにおける研究分野の分類,最近のNLPの発展分析,研究成果の要約,今後の研究の方向性について概説した。
論文 参考訳(メタデータ) (2023-07-20T07:33:30Z) - Efficient Methods for Natural Language Processing: A Survey [76.34572727185896]
本研究は, 効率的なNLPにおける現在の手法と知見を合成し, 関連づけるものである。
我々は,限られた資源下でNLPを実施するためのガイダンスと,より効率的な手法を開発するための有望な研究方向性の両立を目指す。
論文 参考訳(メタデータ) (2022-08-31T20:32:35Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Meta Learning for Natural Language Processing: A Survey [88.58260839196019]
ディープラーニングは自然言語処理(NLP)分野において主要な技術である。
ディープラーニングには多くのラベル付きデータが必要です。
メタ学習は、より良いアルゴリズムを学ぶためのアプローチを研究する機械学習の分野である。
論文 参考訳(メタデータ) (2022-05-03T13:58:38Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z) - A Survey of Active Learning for Text Classification using Deep Neural
Networks [1.2310316230437004]
自然言語処理(NLP)とニューラルネットワーク(NN)はどちらも近年大きく変化している。
しかし、アクティブラーニング(AL)の目的のために、NNは、現在の人気にもかかわらず、あまり使われていない。
論文 参考訳(メタデータ) (2020-08-17T12:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。