論文の概要: On Evaluation Protocols for Data Augmentation in a Limited Data Scenario
- arxiv url: http://arxiv.org/abs/2402.14895v2
- Date: Mon, 16 Sep 2024 20:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 22:31:03.657843
- Title: On Evaluation Protocols for Data Augmentation in a Limited Data Scenario
- Title(参考訳): 限られたデータシナリオにおけるデータ拡張のための評価プロトコルについて
- Authors: Frédéric Piedboeuf, Philippe Langlais,
- Abstract要約: 古典的なデータ拡張(文を修飾する)は、単により優れた微調整を行う方法であることを示す。
さらに,ChatGPT や LLama2 のような対話型エージェントによるゼロショットDAでは,性能が向上することを示した。
- 参考スコア(独自算出の注目度): 11.09784120582206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textual data augmentation (DA) is a prolific field of study where novel techniques to create artificial data are regularly proposed, and that has demonstrated great efficiency on small data settings, at least for text classification tasks. In this paper, we challenge those results, showing that classical data augmentation (which modify sentences) is simply a way of performing better fine-tuning, and that spending more time doing so before applying data augmentation negates its effect. This is a significant contribution as it answers several questions that were left open in recent years, namely~: which DA technique performs best (all of them as long as they generate data close enough to the training set, as to not impair training) and why did DA show positive results (facilitates training of network). We further show that zero- and few-shot DA via conversational agents such as ChatGPT or LLama2 can increase performances, confirming that this form of data augmentation is preferable to classical methods.
- Abstract(参考訳): テキストデータ拡張(英語: Textual Data Augmentation, DA)は、人工データを作成する新しい技術が定期的に提案される多分野の研究分野であり、少なくともテキスト分類タスクにおいて、小さなデータ設定において非常に効率が良いことを証明している。
本稿では、従来のデータ拡張(文を修飾する)は、単にファインチューニングの方法であり、データ拡張を適用する前により多くの時間を費やすことが、その効果を否定することを示し、これらの結果に挑戦する。
DAテクニックがどれがベストか(トレーニングセットに十分近いデータを生成できる限り、トレーニングを損なわない)、なぜDAが肯定的な結果を示したのか(ネットワークのトレーニングを円滑化する)。
さらに,ChatGPT や LLama2 のような対話エージェントによるゼロショットDAは,従来の手法よりもデータ拡張が望ましいことを示す。
関連論文リスト
- On-the-fly Data Augmentation for Forecasting with Deep Learning [0.35998666903987897]
我々はこの問題に対処するためにOnDAT(On-the-fly Data Augmentation for Time series)を提案する。
各イテレーションで新しい拡張データセットを生成することで、モデルは絶えず変化する拡張データバリエーションに晒される。
提案手法を,最先端のディープラーニング予測手法と,合計75797時系列を含む8つのベンチマークデータセットを用いて検証した。
論文 参考訳(メタデータ) (2024-04-25T17:16:13Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Domain Generalization by Rejecting Extreme Augmentations [13.114457707388283]
ドメイン外およびドメインの一般化設定では、データ拡張が顕著で堅牢なパフォーマンス向上をもたらすことを示す。
i)標準データ拡張変換の均一サンプリング,(ii)ドメイン外での作業において期待される高いデータ分散を考慮した強度変換,(iii)トレーニングを損なうような極端な変換を拒否する新たな報酬関数を考案する,という簡単なトレーニング手順を提案する。
論文 参考訳(メタデータ) (2023-10-10T14:46:22Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning [27.871007011425775]
本稿では、生成モデルと分類器を併用してラベル付きデータを生成する新しいデータ拡張手法FlipDAを提案する。
実験の結果、FlipDAは有効性と堅牢性の間の良好なトレードオフを達成し、多くのタスクを大幅に改善する一方で、他のタスクに悪影響を及ぼさないことがわかった。
論文 参考訳(メタデータ) (2021-08-13T17:51:31Z) - Data Weighted Training Strategies for Grammatical Error Correction [8.370770440898454]
文法的誤り訂正(GEC)のトレーニングスケジュールにデルタ-log-perplexityを組み込む方法を示す。
得られたデータに基づいて訓練されたモデルは、一般的なGECテストセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-08-07T03:30:14Z) - Complex Wavelet SSIM based Image Data Augmentation [0.0]
我々は,MNIST手書き画像データセットを数値認識に用いる画像データセットとして検討する。
このデータセットの弾性変形に最もよく用いられる拡張手法の1つを詳細に検討する。
本稿では、複雑なウェーブレット構造類似度指標(CWSSIM)と呼ばれる類似度尺度を用いて、無関係なデータを選択的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2020-07-11T21:11:46Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。