論文の概要: Implicit Compressibility of Overparametrized Neural Networks Trained
with Heavy-Tailed SGD
- arxiv url: http://arxiv.org/abs/2306.08125v2
- Date: Mon, 12 Feb 2024 10:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 00:41:12.761098
- Title: Implicit Compressibility of Overparametrized Neural Networks Trained
with Heavy-Tailed SGD
- Title(参考訳): 重み付きSGDを訓練した過パラメータニューラルネットワークのインシシット圧縮性
- Authors: Yijun Wan, Melih Barsbey, Abdellatif Zaidi, Umut Simsekli
- Abstract要約: 勾配降下(SGD)を訓練した一層ニューラルネットワークの検討
加法的な重み付きノイズを各繰り返しに注入すると、任意の圧縮率に対して、アルゴリズムの出力が高い確率で圧縮可能であるように過度なパラメータ化のレベルが存在することを示す。
- 参考スコア(独自算出の注目度): 31.61477313262589
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Neural network compression has been an increasingly important subject, not
only due to its practical relevance, but also due to its theoretical
implications, as there is an explicit connection between compressibility and
generalization error. Recent studies have shown that the choice of the
hyperparameters of stochastic gradient descent (SGD) can have an effect on the
compressibility of the learned parameter vector. These results, however, rely
on unverifiable assumptions and the resulting theory does not provide a
practical guideline due to its implicitness. In this study, we propose a simple
modification for SGD, such that the outputs of the algorithm will be provably
compressible without making any nontrivial assumptions. We consider a
one-hidden-layer neural network trained with SGD, and show that if we inject
additive heavy-tailed noise to the iterates at each iteration, for any
compression rate, there exists a level of overparametrization such that the
output of the algorithm will be compressible with high probability. To achieve
this result, we make two main technical contributions: (i) we prove a
'propagation of chaos' result for a class of heavy-tailed stochastic
differential equations, and (ii) we derive error estimates for their Euler
discretization. Our experiments suggest that the proposed approach not only
achieves increased compressibility with various models and datasets, but also
leads to robust test performance under pruning, even in more realistic
architectures that lie beyond our theoretical setting.
- Abstract(参考訳): ニューラルネットワーク圧縮は、その実用的妥当性だけでなく、圧縮性と一般化誤差の間に明確な関係があることから、その理論的意味から、ますます重要になってきている。
近年の研究では、確率勾配降下(SGD)のハイパーパラメータの選択が、学習パラメータベクトルの圧縮性に影響を及ぼすことが示されている。
しかし、これらの結果は検証不可能な仮定に依存しており、結果として生じる理論はその暗黙性のために実践的なガイドラインを提供していない。
本研究では,アルゴリズムの出力が非自明な仮定をすることなく確実に圧縮可能となるように,sgdの簡単な修正を提案する。
sgdで学習した単層ニューラルネットワークについて検討し,各反復で重み付き雑音を付加した場合,任意の圧縮レートに対して,アルゴリズムの出力が高い確率で圧縮可能となるようなオーバーパラメータ化のレベルが存在することを示す。
この結果を達成するために、私たちは2つの主要な技術貢献をします。
(i)重項確率微分方程式のクラスに対する「カオスの伝播」の結果を証明し、
(ii)euler離散化の誤差推定を導出する。
提案手法は, 各種モデルやデータセットによる圧縮性の向上だけでなく, より現実的なアーキテクチャにおいても, プルーニング下での堅牢なテスト性能も実現可能であることを示唆する。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Reducing Computational Complexity of Neural Networks in Optical Channel
Equalization: From Concepts to Implementation [1.6987798749419218]
本稿では,従来のディジタルバックプロパゲーション(DBP)イコライザよりも実装が簡単で,性能も優れたNNベースのイコライザを設計できることを示す。
NNに基づく等化器は、完全電子色分散補償ブロックと同程度の複雑さを維持しつつ、優れた性能を達成することができる。
論文 参考訳(メタデータ) (2022-08-26T21:00:05Z) - A Theoretical Understanding of Neural Network Compression from Sparse
Linear Approximation [37.525277809849776]
モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことだ。
圧縮性を特徴付けるためにスペーサ感度$ell_q$-normを使用し、ネットワーク内の重みの柔らかいスペーサと圧縮度の関係を提供する。
また,ネットワーク上で各ニューロンを切断する適応アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-11T20:10:35Z) - Federated Random Reshuffling with Compression and Variance Reduction [0.0]
ランダムリシャッフル(RR)は、経験的リスク最小化を通じて教師付き機械学習モデルをトレーニングするための非常に一般的な方法である。
組み込みであり、しばしば標準の機械学習ソフトウェアでデフォルトとして設定される。
我々はFedRRをさらに改善するための3つの新しいアルゴリズムを紹介した。1つはシャッフルによる分散を、もう1つは圧縮による分散をモデル化する。
論文 参考訳(メタデータ) (2022-05-08T16:46:11Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Heavy Tails in SGD and Compressibility of Overparametrized Neural
Networks [9.554646174100123]
本研究では, 勾配降下学習アルゴリズムの力学が圧縮性ネットワークの獲得に重要な役割を担っていることを示す。
我々は,ネットワークが「$ell_p$-compressible」であることが保証され,ネットワークサイズが大きくなるにつれて,異なるプルーニング手法の圧縮誤差が任意に小さくなることを示す。
論文 参考訳(メタデータ) (2021-06-07T17:02:59Z) - Linear Convergent Decentralized Optimization with Compression [50.44269451541387]
圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。
原始双対アルゴリズムによって動機付けられた本論文は、最初のアンダーラインLinunderlineEAr収束を提案する。
underline Decentralized with compression, LEAD。
論文 参考訳(メタデータ) (2020-07-01T04:35:00Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - Consistency Regularization for Certified Robustness of Smoothed
Classifiers [89.72878906950208]
最近のランダムな平滑化技術は、最悪の$ell$-robustnessを平均ケースのロバストネスに変換することができることを示している。
その結果,スムーズな分類器の精度と信頼性の高いロバスト性とのトレードオフは,ノイズに対する予測一貫性の規則化によって大きく制御できることが判明した。
論文 参考訳(メタデータ) (2020-06-07T06:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。