論文の概要: Data Augmentation is Dead, Long Live Data Augmentation
- arxiv url: http://arxiv.org/abs/2402.14895v1
- Date: Thu, 22 Feb 2024 16:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:36:56.889904
- Title: Data Augmentation is Dead, Long Live Data Augmentation
- Title(参考訳): データ拡張は死んだ、長く生きたデータ拡張
- Authors: Fr\'ed\'eric Piedboeuf and Philippe Langlais
- Abstract要約: 古典的なデータ拡張は、単により優れた微調整を行う方法であることを示す。
さらに,ChatGPT や LLama2 などの対話エージェントによるゼロショットデータ生成により,性能が向上することを示す。
- 参考スコア(独自算出の注目度): 9.84721698045897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textual data augmentation (DA) is a prolific field of study where novel
techniques to create artificial data are regularly proposed, and that has
demonstrated great efficiency on small data settings, at least for text
classification tasks. In this paper, we challenge those results, showing that
classical data augmentation is simply a way of performing better fine-tuning,
and that spending more time fine-tuning before applying data augmentation
negates its effect. This is a significant contribution as it answers several
questions that were left open in recent years, namely~: which DA technique
performs best (all of them as long as they generate data close enough to the
training set as to not impair training) and why did DA show positive results
(facilitates training of network). We furthermore show that zero and few-shot
data generation via conversational agents such as ChatGPT or LLama2 can
increase performances, concluding that this form of data augmentation does
still work, even if classical methods do not.
- Abstract(参考訳): テキストデータ拡張(da)は、人工データを作成するための新しい手法が定期的に提案され、少なくともテキスト分類タスクにおいて、小さなデータ設定において非常に効率が良い研究分野である。
本稿では,従来のデータ拡張は単にファインチューニングの方法であり,データ拡張に先立ってファインチューニングにより多くの時間を費やすことは,その効果を否定することを示す。
DAテクニックが(トレーニングを損なわないようにトレーニングセットに十分近いデータを生成する限り)どのDAテクニックが最善であるか、そしてなぜDAが肯定的な結果を示したのか(ネットワークのトレーニングを円滑化する)。
さらに,ChatGPT や LLama2 のような対話型エージェントによるゼロショットデータ生成は,従来の手法がそうでない場合でも,この形式のデータ拡張がまだ有効であることを示す。
関連論文リスト
- D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。
提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。
その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文 参考訳(メタデータ) (2023-12-09T11:37:07Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning [27.871007011425775]
本稿では、生成モデルと分類器を併用してラベル付きデータを生成する新しいデータ拡張手法FlipDAを提案する。
実験の結果、FlipDAは有効性と堅牢性の間の良好なトレードオフを達成し、多くのタスクを大幅に改善する一方で、他のタスクに悪影響を及ぼさないことがわかった。
論文 参考訳(メタデータ) (2021-08-13T17:51:31Z) - WeMix: How to Better Utilize Data Augmentation [36.07712244423405]
我々はデータ拡張の長所と短所を明らかにする包括的分析を開発する。
データ拡張の主な制限は、データバイアスから生じます。
AugDrop" と "MixLoss" という2つの新しいアルゴリズムを開発し、データ拡張におけるデータのバイアスを補正する。
論文 参考訳(メタデータ) (2020-10-03T03:12:18Z) - How Does Data Augmentation Affect Privacy in Machine Learning? [94.52721115660626]
拡張データの情報を活用するために,新たなMI攻撃を提案する。
モデルが拡張データで訓練された場合、最適な会員推定値を確立する。
論文 参考訳(メタデータ) (2020-07-21T02:21:10Z) - Complex Wavelet SSIM based Image Data Augmentation [0.0]
我々は,MNIST手書き画像データセットを数値認識に用いる画像データセットとして検討する。
このデータセットの弾性変形に最もよく用いられる拡張手法の1つを詳細に検討する。
本稿では、複雑なウェーブレット構造類似度指標(CWSSIM)と呼ばれる類似度尺度を用いて、無関係なデータを選択的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2020-07-11T21:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。