論文の概要: How Much Data Are Augmentations Worth? An Investigation into Scaling
Laws, Invariance, and Implicit Regularization
- arxiv url: http://arxiv.org/abs/2210.06441v2
- Date: Fri, 31 Mar 2023 00:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 17:17:30.245095
- Title: How Much Data Are Augmentations Worth? An Investigation into Scaling
Laws, Invariance, and Implicit Regularization
- Title(参考訳): Augmentationsの価値はどれくらいか?
スケーリング則、不変性、暗黙の正規化に関する研究
- Authors: Jonas Geiping, Micah Goldblum, Gowthami Somepalli, Ravid Shwartz-Ziv,
Tom Goldstein, Andrew Gordon Wilson
- Abstract要約: アウト・オブ・ディストリビューションテストのシナリオでは、多種多様なサンプルを生成するが、データ分散と矛盾しない増分は、追加のトレーニングデータよりもさらに価値がある。
トレーニング中に増強が付加性をもたらし、損失景観を効果的に平らにすることを示す。
- 参考スコア(独自算出の注目度): 76.58017437197859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the clear performance benefits of data augmentations, little is known
about why they are so effective. In this paper, we disentangle several key
mechanisms through which data augmentations operate. Establishing an exchange
rate between augmented and additional real data, we find that in
out-of-distribution testing scenarios, augmentations which yield samples that
are diverse, but inconsistent with the data distribution can be even more
valuable than additional training data. Moreover, we find that data
augmentations which encourage invariances can be more valuable than invariance
alone, especially on small and medium sized training sets. Following this
observation, we show that augmentations induce additional stochasticity during
training, effectively flattening the loss landscape.
- Abstract(参考訳): データ拡張による明らかなパフォーマンス上のメリットにもかかわらず、なぜそのような効果があるのかは分かっていない。
本稿では、データ拡張が動作するいくつかの重要なメカニズムを解消する。
付加的な実データと付加的な実データとの交換率を確立することで、分散テストのシナリオでは、多種多様なサンプルを生成するが、データ分布と矛盾する増分は、追加のトレーニングデータよりもさらに価値が高いことが分かる。
さらに,不変性を促進するデータ拡張は,特に中小規模のトレーニングセットにおいて,非分散のみよりも有用であることがわかった。
この観察結果から,トレーニング中に増強がさらなる確率性をもたらし,損失景観を効果的に平坦化させることを示した。
関連論文リスト
- Revisiting Adversarial Training under Long-Tailed Distributions [8.187045490998269]
敵の訓練は、このような攻撃に対抗する最も効果的な方法の1つとして認識されている。
Balanced Softmax Loss単独で、トレーニングオーバーヘッドを大幅に削減しつつ、完全なRoBalアプローチに匹敵するパフォーマンスを実現することができることを示す。
これを解決するために,データ拡張をソリューションとして検討し,バランスの取れたデータと異なり,データ拡張は頑健なオーバーフィッティングを効果的に軽減するだけでなく,ロバスト性も著しく改善することを示した。
論文 参考訳(メタデータ) (2024-03-15T07:29:41Z) - Understanding when Dynamics-Invariant Data Augmentations Benefit Model-Free Reinforcement Learning Updates [3.5253513747455303]
我々は、観察された学習改善に寄与するデータ拡張(DA)の一般的な側面を同定する。
本研究では,動的不変データ拡張機能を持つスパース逆タスクに着目した。
論文 参考訳(メタデータ) (2023-10-26T21:28:50Z) - DualAug: Exploiting Additional Heavy Augmentation with OOD Data
Rejection [77.6648187359111]
そこで本稿では,textbfDualAug という新しいデータ拡張手法を提案する。
教師付き画像分類ベンチマークの実験では、DualAugは様々な自動データ拡張法を改善している。
論文 参考訳(メタデータ) (2023-10-12T08:55:10Z) - On Counterfactual Data Augmentation Under Confounding [30.76982059341284]
トレーニングデータのバイアスを緩和する手段として、対実データ拡張が出現している。
これらのバイアスは、データ生成プロセスにおいて観測され、観測されていない様々な共役変数によって生じる。
提案手法は,既存の最先端手法が優れた結果を得るのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2023-05-29T16:20:23Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Augmentation-Aware Self-Supervision for Data-Efficient GAN Training [68.81471633374393]
識別器が過度に適合する傾向があるため、限られたデータでGANを訓練することは困難である。
本稿では,拡張データの拡張パラメータを予測する,拡張型自己教師型識別器を提案する。
本稿では,クラス条件の BigGAN と非条件の StyleGAN2 アーキテクチャを用いた State-of-the-art (SOTA) 手法と比較する。
論文 参考訳(メタデータ) (2022-05-31T10:35:55Z) - Why Do Self-Supervised Models Transfer? Investigating the Impact of
Invariance on Downstream Tasks [79.13089902898848]
自己教師付き学習は、非競合画像上での表現学習の強力なパラダイムである。
コンピュータビジョンにおける異なるタスクは、異なる(不変の)分散を符号化する機能を必要とすることを示す。
論文 参考訳(メタデータ) (2021-11-22T18:16:35Z) - Improving Transferability of Representations via Augmentation-Aware
Self-Supervision [117.15012005163322]
AugSelfは、ランダムに強化された2つのサンプル間の拡張パラメータの違いを学習する補助的な自己教師型損失である。
私たちの直感は、AugSelfが学習表現における拡張認識情報の保存を奨励していることです。
AugSelfは、最新の最先端の表現学習手法に、無視できる追加のトレーニングコストで簡単に組み込むことができる。
論文 参考訳(メタデータ) (2021-11-18T10:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。