論文の概要: Data Augmentation for Neural NLP
- arxiv url: http://arxiv.org/abs/2302.11412v1
- Date: Wed, 22 Feb 2023 14:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 14:53:33.342527
- Title: Data Augmentation for Neural NLP
- Title(参考訳): ニューラルNLPのためのデータ拡張
- Authors: Domagoj Plu\v{s}\v{c}ec, Jan \v{S}najder
- Abstract要約: データ拡張は、データの不足に対処するための低コストなアプローチである。
本稿では,自然言語処理における最先端データ拡張手法の概要について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data scarcity is a problem that occurs in languages and tasks where we do not
have large amounts of labeled data but want to use state-of-the-art models.
Such models are often deep learning models that require a significant amount of
data to train. Acquiring data for various machine learning problems is
accompanied by high labeling costs. Data augmentation is a low-cost approach
for tackling data scarcity. This paper gives an overview of current
state-of-the-art data augmentation methods used for natural language
processing, with an emphasis on methods for neural and transformer-based
models. Furthermore, it discusses the practical challenges of data
augmentation, possible mitigations, and directions for future research.
- Abstract(参考訳): データ不足は、大量のラベル付きデータを持っていないが最先端のモデルを使いたいという言語やタスクで発生する問題です。
このようなモデルは、トレーニングに大量のデータを必要とするディープラーニングモデルであることが多い。
さまざまな機械学習問題に対するデータ取得には、高いラベリングコストが伴う。
データ拡張は、データの不足に取り組むための低コストなアプローチである。
本稿では,自然言語処理における最先端データ拡張手法の概要を述べるとともに,ニューラルモデルとトランスフォーマーモデルに焦点をあてる。
さらに,データ強化の実践的課題,緩和の可能性,今後の研究の方向性についても論じる。
関連論文リスト
- Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - Progressive reduced order modeling: empowering data-driven modeling with
selective knowledge transfer [0.0]
本稿では,データ・ラーメンの最小化とデータ・ドリブン・モデリングの実践性の向上を図った,段階的縮小順序モデリングフレームワークを提案する。
提案手法は,未使用情報を無視しながら,人間が有意義な知識を選択的に活用する方法と同様,事前訓練されたモデルからの知識をゲートを通じて選択的に伝達する。
我々は、多孔質媒体の輸送、重力駆動流れ、超弾性材料における有限変形など、いくつかのケースで我々の枠組みを検証した。
論文 参考訳(メタデータ) (2023-10-04T23:50:14Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文 参考訳(メタデータ) (2023-04-27T21:08:05Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - A Proposal to Study "Is High Quality Data All We Need?" [8.122270502556374]
本稿では,高品質なベンチマークデータのサブセットの選択方法,および/または生成方法を検討するための実証的研究を提案する。
私たちは、タスクを学ぶために大きなデータセットが本当に必要かどうか、そして、高品質なデータの小さなサブセットが大きなデータセットを置き換えることができるかどうかに答えようとしています。
論文 参考訳(メタデータ) (2022-03-12T10:50:13Z) - Deep invariant networks with differentiable augmentation layers [87.22033101185201]
データ拡張ポリシーの学習方法は、保持データを必要とし、二段階最適化の問題に基づいている。
我々のアプローチは、現代の自動データ拡張技術よりも訓練が簡単で高速であることを示す。
論文 参考訳(メタデータ) (2022-02-04T14:12:31Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Data Augmentation for Deep Candlestick Learner [2.104922050913737]
そこで本研究では,ロウソクスティックデータを改良したローカルサーチアタックサンプリング手法を提案する。
提案手法は,人間の識別が難しい高品質なデータを生成することができることを示す。
論文 参考訳(メタデータ) (2020-05-14T06:02:31Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。