論文の概要: Data Augmentation is Dead, Long Live Data Augmentation
- arxiv url: http://arxiv.org/abs/2402.14895v1
- Date: Thu, 22 Feb 2024 16:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:36:56.889904
- Title: Data Augmentation is Dead, Long Live Data Augmentation
- Title(参考訳): データ拡張は死んだ、長く生きたデータ拡張
- Authors: Fr\'ed\'eric Piedboeuf and Philippe Langlais
- Abstract要約: 古典的なデータ拡張は、単により優れた微調整を行う方法であることを示す。
さらに,ChatGPT や LLama2 などの対話エージェントによるゼロショットデータ生成により,性能が向上することを示す。
- 参考スコア(独自算出の注目度): 9.84721698045897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textual data augmentation (DA) is a prolific field of study where novel
techniques to create artificial data are regularly proposed, and that has
demonstrated great efficiency on small data settings, at least for text
classification tasks. In this paper, we challenge those results, showing that
classical data augmentation is simply a way of performing better fine-tuning,
and that spending more time fine-tuning before applying data augmentation
negates its effect. This is a significant contribution as it answers several
questions that were left open in recent years, namely~: which DA technique
performs best (all of them as long as they generate data close enough to the
training set as to not impair training) and why did DA show positive results
(facilitates training of network). We furthermore show that zero and few-shot
data generation via conversational agents such as ChatGPT or LLama2 can
increase performances, concluding that this form of data augmentation does
still work, even if classical methods do not.
- Abstract(参考訳): テキストデータ拡張(da)は、人工データを作成するための新しい手法が定期的に提案され、少なくともテキスト分類タスクにおいて、小さなデータ設定において非常に効率が良い研究分野である。
本稿では,従来のデータ拡張は単にファインチューニングの方法であり,データ拡張に先立ってファインチューニングにより多くの時間を費やすことは,その効果を否定することを示す。
DAテクニックが(トレーニングを損なわないようにトレーニングセットに十分近いデータを生成する限り)どのDAテクニックが最善であるか、そしてなぜDAが肯定的な結果を示したのか(ネットワークのトレーニングを円滑化する)。
さらに,ChatGPT や LLama2 のような対話型エージェントによるゼロショットデータ生成は,従来の手法がそうでない場合でも,この形式のデータ拡張がまだ有効であることを示す。
関連論文リスト
- On-the-fly Data Augmentation for Forecasting with Deep Learning [0.35998666903987897]
我々はこの問題に対処するためにOnDAT(On-the-fly Data Augmentation for Time series)を提案する。
各イテレーションで新しい拡張データセットを生成することで、モデルは絶えず変化する拡張データバリエーションに晒される。
提案手法を,最先端のディープラーニング予測手法と,合計75797時系列を含む8つのベンチマークデータセットを用いて検証した。
論文 参考訳(メタデータ) (2024-04-25T17:16:13Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Domain Generalization by Rejecting Extreme Augmentations [13.114457707388283]
ドメイン外およびドメインの一般化設定では、データ拡張が顕著で堅牢なパフォーマンス向上をもたらすことを示す。
i)標準データ拡張変換の均一サンプリング,(ii)ドメイン外での作業において期待される高いデータ分散を考慮した強度変換,(iii)トレーニングを損なうような極端な変換を拒否する新たな報酬関数を考案する,という簡単なトレーニング手順を提案する。
論文 参考訳(メタデータ) (2023-10-10T14:46:22Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning [27.871007011425775]
本稿では、生成モデルと分類器を併用してラベル付きデータを生成する新しいデータ拡張手法FlipDAを提案する。
実験の結果、FlipDAは有効性と堅牢性の間の良好なトレードオフを達成し、多くのタスクを大幅に改善する一方で、他のタスクに悪影響を及ぼさないことがわかった。
論文 参考訳(メタデータ) (2021-08-13T17:51:31Z) - Data Weighted Training Strategies for Grammatical Error Correction [8.370770440898454]
文法的誤り訂正(GEC)のトレーニングスケジュールにデルタ-log-perplexityを組み込む方法を示す。
得られたデータに基づいて訓練されたモデルは、一般的なGECテストセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-08-07T03:30:14Z) - Complex Wavelet SSIM based Image Data Augmentation [0.0]
我々は,MNIST手書き画像データセットを数値認識に用いる画像データセットとして検討する。
このデータセットの弾性変形に最もよく用いられる拡張手法の1つを詳細に検討する。
本稿では、複雑なウェーブレット構造類似度指標(CWSSIM)と呼ばれる類似度尺度を用いて、無関係なデータを選択的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2020-07-11T21:11:46Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。