論文の概要: Heavy-Tailed Regularization of Weight Matrices in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2304.02911v2
- Date: Fri, 7 Apr 2023 04:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 14:17:20.324504
- Title: Heavy-Tailed Regularization of Weight Matrices in Deep Neural Networks
- Title(参考訳): 深部ニューラルネットワークにおける重み行列の重み付き正規化
- Authors: Xuanzhe Xiao, Zeng Li, Chuanlong Xie, Fengwei Zhou
- Abstract要約: 鍵となる発見は、ニューラルネットワークの一般化性能が、その重み行列のスペクトルにおける重みの程度と関連していることを示している。
重み付き正則化と呼ばれる新しい正則化手法を導入し、正則化により重み付きスペクトルを明示的に促進する。
重み付き正規化が一般化性能の点で従来の正規化技術より優れていることを実証的に示す。
- 参考スコア(独自算出の注目度): 8.30897399932868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unraveling the reasons behind the remarkable success and exceptional
generalization capabilities of deep neural networks presents a formidable
challenge. Recent insights from random matrix theory, specifically those
concerning the spectral analysis of weight matrices in deep neural networks,
offer valuable clues to address this issue. A key finding indicates that the
generalization performance of a neural network is associated with the degree of
heavy tails in the spectrum of its weight matrices. To capitalize on this
discovery, we introduce a novel regularization technique, termed Heavy-Tailed
Regularization, which explicitly promotes a more heavy-tailed spectrum in the
weight matrix through regularization. Firstly, we employ the Weighted Alpha and
Stable Rank as penalty terms, both of which are differentiable, enabling the
direct calculation of their gradients. To circumvent over-regularization, we
introduce two variations of the penalty function. Then, adopting a Bayesian
statistics perspective and leveraging knowledge from random matrices, we
develop two novel heavy-tailed regularization methods, utilizing Powerlaw
distribution and Frechet distribution as priors for the global spectrum and
maximum eigenvalues, respectively. We empirically show that heavytailed
regularization outperforms conventional regularization techniques in terms of
generalization performance.
- Abstract(参考訳): ディープニューラルネットワークの驚くべき成功と例外的な一般化能力の背後にある理由を解明することは、非常に難しい課題である。
ランダム行列理論、特にディープニューラルネットワークにおける重み行列のスペクトル解析に関する最近の知見は、この問題に対処するための貴重な手がかりを提供する。
ニューラルネットワークの一般化性能は、その重み行列のスペクトルにおける重みの程度と関連していることを示す重要な発見である。
この発見を活かし、重み付き正則化と呼ばれる新しい正則化手法を導入し、正則化を通じて重み付きスペクトルを明示的に促進する。
まず、重み付きアルファと安定ランクをペナルティ用語として使い、どちらも微分可能であり、勾配の直接計算を可能にします。
過正規化を回避するために,ペナルティ関数の2つのバリエーションを導入する。
そこで,ベイズ統計の観点を取り入れ,ランダム行列からの知識を活用することにより,大域スペクトルの先行値としてPowerlaw分布とFrechet分布を利用する2つの新しい重み付き正規化手法を開発した。
重み付き正規化が一般化性能の点で従来の正規化技術より優れていることを実証的に示す。
関連論文リスト
- Towards Better Generalization: Weight Decay Induces Low-rank Bias for Neural Networks [9.948870430491738]
We study the implicit bias to low-rank weight matrices when training neural network with Weight Decay (WD)。
我々の研究は、WDと組み合わせることで、SGDの強力な一般化性能に関する理論的および実証的な知見を提供する。
論文 参考訳(メタデータ) (2024-10-03T03:36:18Z) - Optimization and Generalization Guarantees for Weight Normalization [19.965963460750206]
我々は、Deep WeightNormモデルの最適化と一般化の双方について、最初の理論的特徴付けを提供する。
本稿では,WeightNormネットワークのトレーニングに正規化項などの理論的関心が関係していることを示す実験結果を示す。
論文 参考訳(メタデータ) (2024-09-13T15:55:05Z) - High-Dimensional Kernel Methods under Covariate Shift: Data-Dependent Implicit Regularization [83.06112052443233]
本稿では,共変量シフト下での高次元におけるカーネルリッジの回帰について検討する。
バイアス分散分解により、再重み付け戦略が分散を減少させることができることを理論的に証明する。
偏見について,任意の偏見の正則化を解析し,偏見が正則化の異なる尺度で非常に異なる振る舞いをすることができることを示す。
論文 参考訳(メタデータ) (2024-06-05T12:03:27Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Quantum tomography of helicity states for general scattering processes [55.2480439325792]
量子トモグラフィーは、物理学における量子系の密度行列$rho$を計算するのに欠かせない道具となっている。
一般散乱過程におけるヘリシティ量子初期状態の再構成に関する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-16T21:23:42Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Spectral Regularization: an Inductive Bias for Sequence Modeling [7.365884062005811]
本稿では,一意な帰納バイアスをシーケンスモデルに付加するスペクトル正則化手法を提案する。
ハンケル行列と正規文法の基本的な関係から、スペクトル正則化器としてハンケル行列のトレースノルム(英語版)を用いることを提案する。
論文 参考訳(メタデータ) (2022-11-04T04:07:05Z) - Explicit regularization and implicit bias in deep network classifiers
trained with the square loss [2.8935588665357077]
平方損失で訓練された深いReLUネットワークは分類の仕事でよく機能するために観察されました。
正規化法を重み決定法とともに用いる場合,絶対最小ノルムの解への収束が期待できることを示す。
論文 参考訳(メタデータ) (2020-12-31T21:07:56Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Beyond Random Matrix Theory for Deep Networks [0.7614628596146599]
Wigner semi-circle と Marcenko-Pastur の分布は、しばしばディープニューラルネットワーク理論解析に使用されるが、経験的に観察されたスペクトル密度と一致するかを検討する。
観測されたスペクトル形状は, 外れ値が許容される場合でも, 理論的な予測から大きく逸脱することがわかった。
行列アンサンブルの新しいクラスとして、ランダムなウィグナー/ウィッシュアートアンサンブル生成物とパーコレーションされたウィグナー/ウィッシュアートアンサンブルを考える。
論文 参考訳(メタデータ) (2020-06-13T21:00:30Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。