論文の概要: Heavy-Tailed Regularization of Weight Matrices in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2304.02911v2
- Date: Fri, 7 Apr 2023 04:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 14:17:20.324504
- Title: Heavy-Tailed Regularization of Weight Matrices in Deep Neural Networks
- Title(参考訳): 深部ニューラルネットワークにおける重み行列の重み付き正規化
- Authors: Xuanzhe Xiao, Zeng Li, Chuanlong Xie, Fengwei Zhou
- Abstract要約: 鍵となる発見は、ニューラルネットワークの一般化性能が、その重み行列のスペクトルにおける重みの程度と関連していることを示している。
重み付き正則化と呼ばれる新しい正則化手法を導入し、正則化により重み付きスペクトルを明示的に促進する。
重み付き正規化が一般化性能の点で従来の正規化技術より優れていることを実証的に示す。
- 参考スコア(独自算出の注目度): 8.30897399932868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unraveling the reasons behind the remarkable success and exceptional
generalization capabilities of deep neural networks presents a formidable
challenge. Recent insights from random matrix theory, specifically those
concerning the spectral analysis of weight matrices in deep neural networks,
offer valuable clues to address this issue. A key finding indicates that the
generalization performance of a neural network is associated with the degree of
heavy tails in the spectrum of its weight matrices. To capitalize on this
discovery, we introduce a novel regularization technique, termed Heavy-Tailed
Regularization, which explicitly promotes a more heavy-tailed spectrum in the
weight matrix through regularization. Firstly, we employ the Weighted Alpha and
Stable Rank as penalty terms, both of which are differentiable, enabling the
direct calculation of their gradients. To circumvent over-regularization, we
introduce two variations of the penalty function. Then, adopting a Bayesian
statistics perspective and leveraging knowledge from random matrices, we
develop two novel heavy-tailed regularization methods, utilizing Powerlaw
distribution and Frechet distribution as priors for the global spectrum and
maximum eigenvalues, respectively. We empirically show that heavytailed
regularization outperforms conventional regularization techniques in terms of
generalization performance.
- Abstract(参考訳): ディープニューラルネットワークの驚くべき成功と例外的な一般化能力の背後にある理由を解明することは、非常に難しい課題である。
ランダム行列理論、特にディープニューラルネットワークにおける重み行列のスペクトル解析に関する最近の知見は、この問題に対処するための貴重な手がかりを提供する。
ニューラルネットワークの一般化性能は、その重み行列のスペクトルにおける重みの程度と関連していることを示す重要な発見である。
この発見を活かし、重み付き正則化と呼ばれる新しい正則化手法を導入し、正則化を通じて重み付きスペクトルを明示的に促進する。
まず、重み付きアルファと安定ランクをペナルティ用語として使い、どちらも微分可能であり、勾配の直接計算を可能にします。
過正規化を回避するために,ペナルティ関数の2つのバリエーションを導入する。
そこで,ベイズ統計の観点を取り入れ,ランダム行列からの知識を活用することにより,大域スペクトルの先行値としてPowerlaw分布とFrechet分布を利用する2つの新しい重み付き正規化手法を開発した。
重み付き正規化が一般化性能の点で従来の正規化技術より優れていることを実証的に示す。
関連論文リスト
- Quantum tomography of helicity states for general scattering processes [65.268245109828]
量子トモグラフィーは、物理学における量子系の密度行列$rho$を計算するのに欠かせない道具となっている。
一般散乱過程におけるヘリシティ量子初期状態の再構成に関する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-16T21:23:42Z) - A Unified Approach to Controlling Implicit Regularization via Mirror
Descent [18.536453909759544]
ミラー降下(MD)は勾配降下(GD)の顕著な一般化である
MDを効率的に実装することができ、適切な条件下での高速収束を享受できることを示す。
論文 参考訳(メタデータ) (2023-06-24T03:57:26Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram
Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。
提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。
これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文 参考訳(メタデータ) (2023-05-25T15:32:21Z) - Spectral Regularization: an Inductive Bias for Sequence Modeling [7.365884062005811]
本稿では,一意な帰納バイアスをシーケンスモデルに付加するスペクトル正則化手法を提案する。
ハンケル行列と正規文法の基本的な関係から、スペクトル正則化器としてハンケル行列のトレースノルム(英語版)を用いることを提案する。
論文 参考訳(メタデータ) (2022-11-04T04:07:05Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Explicit regularization and implicit bias in deep network classifiers
trained with the square loss [2.8935588665357077]
平方損失で訓練された深いReLUネットワークは分類の仕事でよく機能するために観察されました。
正規化法を重み決定法とともに用いる場合,絶対最小ノルムの解への収束が期待できることを示す。
論文 参考訳(メタデータ) (2020-12-31T21:07:56Z) - Improve Generalization and Robustness of Neural Networks via Weight
Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。
そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文 参考訳(メタデータ) (2020-08-07T02:55:28Z) - Beyond Random Matrix Theory for Deep Networks [0.7614628596146599]
Wigner semi-circle と Marcenko-Pastur の分布は、しばしばディープニューラルネットワーク理論解析に使用されるが、経験的に観察されたスペクトル密度と一致するかを検討する。
観測されたスペクトル形状は, 外れ値が許容される場合でも, 理論的な予測から大きく逸脱することがわかった。
行列アンサンブルの新しいクラスとして、ランダムなウィグナー/ウィッシュアートアンサンブル生成物とパーコレーションされたウィグナー/ウィッシュアートアンサンブルを考える。
論文 参考訳(メタデータ) (2020-06-13T21:00:30Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。