論文の概要: The good, the bad and the ugly sides of data augmentation: An implicit
spectral regularization perspective
- arxiv url: http://arxiv.org/abs/2210.05021v3
- Date: Tue, 27 Feb 2024 20:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 19:33:11.811843
- Title: The good, the bad and the ugly sides of data augmentation: An implicit
spectral regularization perspective
- Title(参考訳): データ拡張の善、悪、悪の側面:暗黙のスペクトル正規化の観点から
- Authors: Chi-Heng Lin, Chiraag Kaushik, Eva L. Dyer, Vidya Muthukumar
- Abstract要約: データ拡張(DA)は、現代の機械学習のパフォーマンス向上のための強力なワークホースである。
本研究では,DAの一般クラスが一般化に与える影響を特徴付ける新しい理論的枠組みを開発する。
本フレームワークは,DAの一般化に対する微妙な影響と,時として驚くべき影響を強調し,新しい拡張設計のためのテストベッドとして機能する。
- 参考スコア(独自算出の注目度): 14.229855423083922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation (DA) is a powerful workhorse for bolstering performance in
modern machine learning. Specific augmentations like translations and scaling
in computer vision are traditionally believed to improve generalization by
generating new (artificial) data from the same distribution. However, this
traditional viewpoint does not explain the success of prevalent augmentations
in modern machine learning (e.g. randomized masking, cutout, mixup), that
greatly alter the training data distribution. In this work, we develop a new
theoretical framework to characterize the impact of a general class of DA on
underparameterized and overparameterized linear model generalization. Our
framework reveals that DA induces implicit spectral regularization through a
combination of two distinct effects: a) manipulating the relative proportion of
eigenvalues of the data covariance matrix in a training-data-dependent manner,
and b) uniformly boosting the entire spectrum of the data covariance matrix
through ridge regression. These effects, when applied to popular augmentations,
give rise to a wide variety of phenomena, including discrepancies in
generalization between over-parameterized and under-parameterized regimes and
differences between regression and classification tasks. Our framework
highlights the nuanced and sometimes surprising impacts of DA on
generalization, and serves as a testbed for novel augmentation design.
- Abstract(参考訳): データ拡張(da)は、現代の機械学習のパフォーマンスを高める強力なワークホースである。
コンピュータビジョンにおける翻訳やスケーリングのような特定の拡張は、伝統的に同じ分布から新しい(人工)データを生成することによって一般化を改善すると考えられている。
しかし、この伝統的な視点は、トレーニングデータ分布を大きく変える現代の機械学習(ランダム化マスキング、カットアウト、ミックスアップなど)における一般的な拡張の成功を説明できない。
本研究では,DAの一般クラスが過度パラメータ化および過度パラメータ化線形モデル一般化に与える影響を特徴付ける新しい理論フレームワークを開発する。
daは2つの異なる効果の組み合わせによって暗黙のスペクトル正規化を誘導する。
a)データ共分散行列の固有値の相対比率を訓練データに依存して操作すること
b) リッジ回帰によるデータ共分散行列のスペクトル全体を均一に増加させる。
これらの効果は、一般的な拡張に適用すると、過小パラメータと過小パラメータのレジームの一般化における不一致や、回帰と分類のタスクの違いなど、幅広い現象をもたらす。
本フレームワークは,DAの一般化に対する微妙な影響と,時として驚くべき影響を強調し,新しい拡張設計のためのテストベッドとして機能する。
関連論文リスト
- Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Towards Understanding How Data Augmentation Works with Imbalanced Data [17.478900028887537]
本稿では,データ拡張が3つの異なる分類器,畳み込みニューラルネットワーク,サポートベクトルマシン,ロジスティック回帰モデルに与える影響について検討する。
本研究は,不均衡データに適用した場合,モデル重み,サポートベクトル,特徴選択に大きな変化が生じることを示す。
DAはデータの分散を促進することによって機能し、機械学習モデルがデータの変化とラベルを関連付けることができる、という仮説を立てる。
論文 参考訳(メタデータ) (2023-04-12T15:01:22Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - Data Augmentation vs. Equivariant Networks: A Theory of Generalization
on Dynamics Forecasting [24.363954435050264]
力学系における対称性の爆発は、ディープラーニングの一般化を改善する強力な方法である。
データ拡張と同変ネットワークは、学習に対称性を注入する2つの主要なアプローチである。
データ拡張と同変ネットワークの一般化境界を導出し、統一されたフレームワークにおける学習に対するそれらの効果を特徴づける。
論文 参考訳(メタデータ) (2022-06-19T17:00:12Z) - Generalization Gap in Amortized Inference [17.951010274427187]
確率モデルの一般的なクラス - 変分オートエンコーダ (VAE) の一般化について検討する。
過度に適合する現象は、通常、償却推論ネットワークに支配されていることを示す。
そこで本研究では,従来のウェイク・スリープ・アルゴリズムにヒントを得た新たな学習目標を提案する。
論文 参考訳(メタデータ) (2022-05-23T21:28:47Z) - Regularising for invariance to data augmentation improves supervised
learning [82.85692486314949]
入力毎に複数の拡張を使用すれば、一般化が向上することを示す。
本稿では,個々のモデル予測のレベルにおいて,この不変性を助長する明示的な正規化手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T11:25:45Z) - Double Descent and Other Interpolation Phenomena in GANs [2.7007335372861974]
生成逆数ネットワーク(GAN)における潜在空間次元の関数としての一般化誤差について検討する。
そこで我々は,実出力サンプルと組み合わせて,一対の合成(雑音)入力を利用するGANのための新しい擬似教師付き学習手法を開発した。
解析は主に線形モデルに焦点をあてるが、非線形多層GANの一般化に重要な洞察を与える。
論文 参考訳(メタデータ) (2021-06-07T23:07:57Z) - Supercharging Imbalanced Data Learning With Energy-based Contrastive
Representation Transfer [72.5190560787569]
コンピュータビジョンにおいて、長い尾のデータセットからの学習は、特に自然画像データセットの繰り返しのテーマである。
本稿では,データ生成機構がラベル条件と特徴分布の間で不変であるメタ分散シナリオを提案する。
これにより、因果データインフレーションの手順を利用してマイノリティクラスの表現を拡大できる。
論文 参考訳(メタデータ) (2020-11-25T00:13:11Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。