論文の概要: Implicit Compressibility of Overparametrized Neural Networks Trained
with Heavy-Tailed SGD
- arxiv url: http://arxiv.org/abs/2306.08125v1
- Date: Tue, 13 Jun 2023 20:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 22:51:11.567056
- Title: Implicit Compressibility of Overparametrized Neural Networks Trained
with Heavy-Tailed SGD
- Title(参考訳): 重み付きSGDを訓練した過パラメータニューラルネットワークのインシシット圧縮性
- Authors: Yijun Wan, Abdellatif Zaidi, Umut Simsekli
- Abstract要約: 勾配降下(SGD)を訓練した一層ニューラルネットワークの検討
圧縮率に対して、オーバーパラメトリゼーションのレベル(すなわち、隠れたユニットの数)が存在することを示す。
次に、任意の圧縮率に対して、オーバーパラメトリゼーションのレベル(すなわち、隠れた単位の数)が存在することを示す。
- 参考スコア(独自算出の注目度): 34.458818867904455
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Neural network compression has been an increasingly important subject, due to
its practical implications in terms of reducing the computational requirements
and its theoretical implications, as there is an explicit connection between
compressibility and the generalization error. Recent studies have shown that
the choice of the hyperparameters of stochastic gradient descent (SGD) can have
an effect on the compressibility of the learned parameter vector. Even though
these results have shed some light on the role of the training dynamics over
compressibility, they relied on unverifiable assumptions and the resulting
theory does not provide a practical guideline due to its implicitness. In this
study, we propose a simple modification for SGD, such that the outputs of the
algorithm will be provably compressible without making any nontrivial
assumptions. We consider a one-hidden-layer neural network trained with SGD and
we inject additive heavy-tailed noise to the iterates at each iteration. We
then show that, for any compression rate, there exists a level of
overparametrization (i.e., the number of hidden units), such that the output of
the algorithm will be compressible with high probability. To achieve this
result, we make two main technical contributions: (i) we build on a recent
study on stochastic analysis and prove a 'propagation of chaos' result with
improved rates for a class of heavy-tailed stochastic differential equations,
and (ii) we derive strong-error estimates for their Euler discretization. We
finally illustrate our approach on experiments, where the results suggest that
the proposed approach achieves compressibility with a slight compromise from
the training and test error.
- Abstract(参考訳): ニューラルネットワークの圧縮は、圧縮可能性と一般化誤差の間に明らかな関係があるため、計算要件の削減と理論的意味合いの面での実用的な意味合いから、ますます重要になっている。
近年の研究では、確率勾配降下(SGD)のハイパーパラメータの選択が、学習パラメータベクトルの圧縮性に影響を及ぼすことが示されている。
これらの結果は、圧縮性よりもトレーニングダイナミクスの役割に光を当てているが、それらは検証不可能な仮定に依存しており、その結果理論はその暗黙性のために実践的な指針を提供していない。
本研究では,アルゴリズムの出力が非自明な仮定をすることなく確実に圧縮可能となるように,sgdの簡単な修正を提案する。
我々は,SGDで訓練した一層ニューラルネットワークを考察し,各繰り返しの繰り返しに付加的な重み付きノイズを注入する。
すると、任意の圧縮率に対して、アルゴリズムの出力が高い確率で圧縮可能であるように、過パラメトリゼーションのレベル(すなわち隠れた単位の数)が存在することを示す。
この結果を達成するために、私たちは2つの主要な技術貢献をします。
i) 確率解析の最近の研究に基づいて、重み付き確率微分方程式のクラスに対する改善率による「カオスの伝播」の結果を証明し、
(II)Euler離散化の強い誤差推定を導出する。
実験結果から, 提案手法は, トレーニングとテストの誤差から若干の妥協を伴って圧縮性を達成できることが示唆された。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Reducing Computational Complexity of Neural Networks in Optical Channel
Equalization: From Concepts to Implementation [1.6987798749419218]
本稿では,従来のディジタルバックプロパゲーション(DBP)イコライザよりも実装が簡単で,性能も優れたNNベースのイコライザを設計できることを示す。
NNに基づく等化器は、完全電子色分散補償ブロックと同程度の複雑さを維持しつつ、優れた性能を達成することができる。
論文 参考訳(メタデータ) (2022-08-26T21:00:05Z) - A Theoretical Understanding of Neural Network Compression from Sparse
Linear Approximation [37.525277809849776]
モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことだ。
圧縮性を特徴付けるためにスペーサ感度$ell_q$-normを使用し、ネットワーク内の重みの柔らかいスペーサと圧縮度の関係を提供する。
また,ネットワーク上で各ニューロンを切断する適応アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-11T20:10:35Z) - Federated Random Reshuffling with Compression and Variance Reduction [0.0]
ランダムリシャッフル(RR)は、経験的リスク最小化を通じて教師付き機械学習モデルをトレーニングするための非常に一般的な方法である。
組み込みであり、しばしば標準の機械学習ソフトウェアでデフォルトとして設定される。
我々はFedRRをさらに改善するための3つの新しいアルゴリズムを紹介した。1つはシャッフルによる分散を、もう1つは圧縮による分散をモデル化する。
論文 参考訳(メタデータ) (2022-05-08T16:46:11Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Heavy Tails in SGD and Compressibility of Overparametrized Neural
Networks [9.554646174100123]
本研究では, 勾配降下学習アルゴリズムの力学が圧縮性ネットワークの獲得に重要な役割を担っていることを示す。
我々は,ネットワークが「$ell_p$-compressible」であることが保証され,ネットワークサイズが大きくなるにつれて,異なるプルーニング手法の圧縮誤差が任意に小さくなることを示す。
論文 参考訳(メタデータ) (2021-06-07T17:02:59Z) - Linear Convergent Decentralized Optimization with Compression [50.44269451541387]
圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。
原始双対アルゴリズムによって動機付けられた本論文は、最初のアンダーラインLinunderlineEAr収束を提案する。
underline Decentralized with compression, LEAD。
論文 参考訳(メタデータ) (2020-07-01T04:35:00Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - Consistency Regularization for Certified Robustness of Smoothed
Classifiers [89.72878906950208]
最近のランダムな平滑化技術は、最悪の$ell$-robustnessを平均ケースのロバストネスに変換することができることを示している。
その結果,スムーズな分類器の精度と信頼性の高いロバスト性とのトレードオフは,ノイズに対する予測一貫性の規則化によって大きく制御できることが判明した。
論文 参考訳(メタデータ) (2020-06-07T06:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。