Fugu-MT 論文翻訳(概要): Data Augmentation Approaches in Natural Language Processing: A Survey

論文の概要: Data Augmentation Approaches in Natural Language Processing: A Survey

arxiv url: http://arxiv.org/abs/2110.01852v1
Date: Tue, 5 Oct 2021 07:35:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-06 21:41:25.215986
Title: Data Augmentation Approaches in Natural Language Processing: A Survey
Title（参考訳）: 自然言語処理におけるデータ拡張アプローチ:調査
Authors: Bohan Li, Yutai Hou, Wanxiang Che
Abstract要約: データ拡張(DA)は、ディープラーニング技術が失敗する可能性のあるデータの不足シナリオを軽減する。 DA手法の主な焦点の1つは、トレーニングデータの多様性を改善することである。 DA手法をパラフレーズ化, ノイズ化, サンプリングなど, 拡張データの多様性に基づいて3つのカテゴリに分類する。
参考スコア（独自算出の注目度）: 28.91744006146676
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As an effective strategy, data augmentation (DA) alleviates data scarcity scenarios where deep learning techniques may fail. It is widely applied in computer vision then introduced to natural language processing and achieves improvements in many tasks. One of the main focuses of the DA methods is to improve the diversity of training data, thereby helping the model to better generalize to unseen testing data. In this survey, we frame DA methods into three categories based on the diversity of augmented data, including paraphrasing, noising, and sampling. Our paper sets out to analyze DA methods in detail according to the above categories. Further, we also introduce their applications in NLP tasks as well as the challenges.
Abstract（参考訳）: 効果的な戦略として、データ拡張(DA)は、ディープラーニング技術が失敗する可能性のあるデータの不足シナリオを軽減する。コンピュータビジョンに広く応用され、自然言語処理に導入され、多くのタスクで改善されている。 DA手法の主な焦点の1つは、トレーニングデータの多様性を改善することである。本研究では, パラフレーズ, ノイズ, サンプリングなどの拡張データの多様性に基づいて, DA手法を3つのカテゴリに分類する。本論文では, DA法について, 上記のカテゴリに応じて詳細に分析する。さらに,nlpタスクにおけるアプリケーションや課題についても紹介する。

関連論文リスト

Diversity-oriented Data Augmentation with Large Language Models [9.548912625579947]
我々はtextbfunderline Di-textbfunderline 指向データ textbfunderlineAugmentation framework (textbfDoAug) を提案する。具体的には、多様性指向の微調整手法を用いて、多彩なパラフレーズを生成することでテキストデータセットを増強できる多彩なパラフレーズとしてLLMを訓練する。その結果, ラベルの整合性を維持しつつ, 微調整LDMオーグメンタにより多様性が向上し, 下流タスクの堅牢性と性能が向上することがわかった。
論文参考訳（メタデータ） (2025-02-17T11:00:40Z)
Generalized Group Data Attribution [28.056149996461286]
データ属性法は、個々のトレーニングデータポイントがモデル出力に与える影響を定量化する。既存のDAメソッドはしばしば計算集約的であり、大規模な機械学習モデルに適用性を制限する。本稿では,GA(Generalized Group Data Attribution, GGDA)フレームワークを紹介する。
論文参考訳（メタデータ） (2024-10-13T17:51:21Z)
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models [33.488331159912136]
インストラクションチューニングは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。自然言語処理(NLP)とディープラーニングの分野において,データアセスメントと選択手法が提案されている。本稿では,データアセスメントと選択に関する既存の文献を総合的にレビューし,特にLLMの命令チューニングについて述べる。
論文参考訳（メタデータ） (2024-08-04T16:50:07Z)
A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文参考訳（メタデータ） (2024-05-15T11:58:08Z)
Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges [47.45993726498343]
データ強化(DA)は、データ収集を必要とせずにトレーニング例を多様化することにより、モデルパフォーマンスを向上させる重要な手法として登場した。本調査では,大規模言語モデル(LLM)がDAに与える影響,特に自然言語処理(NLP)以降の文脈において,それらが持つ固有の課題と機会に対処する。
論文参考訳（メタデータ） (2024-03-05T14:11:54Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Rethink the Effectiveness of Text Data Augmentation: An Empirical Analysis [4.771833920251869]
我々は,7つの異なるNLPタスクの配列にまたがるバックトランスレーションと共役する3種類のFT手法の有効性を評価する。以上の結果から,強化データによる事前学習が,下流タスクのFT性能を効果的に向上させることが明らかとなった。我々の発見は、LMのパフォーマンスを高める強力なツールとして、DAの可能性を強調します。
論文参考訳（メタデータ） (2023-06-13T10:14:58Z)
Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。 FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文参考訳（メタデータ） (2023-02-01T18:59:36Z)
Style Transfer as Data Augmentation: A Case Study on Named Entity Recognition [17.892385961143173]
本稿では,テキストを高リソース領域から低リソース領域へ変換する手法を提案する。我々は、データ選択のための重要な要素のセットとともに制約付き復号アルゴリズムを設計し、有効かつ一貫性のあるデータの生成を保証する。我々のアプローチはデータの不足に対する実用的な解決策であり、他のNLPタスクに適用できることを期待しています。
論文参考訳（メタデータ） (2022-10-14T16:02:03Z)
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文参考訳（メタデータ） (2020-11-03T07:49:15Z)
Data Augmentation for Spoken Language Understanding via Pretrained Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文参考訳（メタデータ） (2020-04-29T04:07:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。