論文の概要: Minimal Random Code Learning with Mean-KL Parameterization
- arxiv url: http://arxiv.org/abs/2307.07816v2
- Date: Mon, 4 Dec 2023 10:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:58:17.603772
- Title: Minimal Random Code Learning with Mean-KL Parameterization
- Title(参考訳): 平均KLパラメータ化による最小ランダム符号学習
- Authors: Jihao Andreas Lin, Gergely Flamich, Jos\'e Miguel Hern\'andez-Lobato
- Abstract要約: 変分ベイズニューラルネットワークの圧縮に用いる最小ランダム符号学習(MIRACLE)の2つの変種について検討した。
MIRACLEは、重量後部$Q_mathbfw$に対して強力で条件付きガウス変分近似を実装し、相対エントロピー符号化を用いて重量サンプルを後部から圧縮する。
本研究では,平均-KLパラメータ化による変分学習が2倍の速度で収束し,圧縮後の予測性能が維持されることを示す。
- 参考スコア(独自算出の注目度): 2.3814052021083354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the qualitative behavior and robustness of two variants of
Minimal Random Code Learning (MIRACLE) used to compress variational Bayesian
neural networks. MIRACLE implements a powerful, conditionally Gaussian
variational approximation for the weight posterior $Q_{\mathbf{w}}$ and uses
relative entropy coding to compress a weight sample from the posterior using a
Gaussian coding distribution $P_{\mathbf{w}}$. To achieve the desired
compression rate, $D_{\mathrm{KL}}[Q_{\mathbf{w}} \Vert P_{\mathbf{w}}]$ must
be constrained, which requires a computationally expensive annealing procedure
under the conventional mean-variance (Mean-Var) parameterization for
$Q_{\mathbf{w}}$. Instead, we parameterize $Q_{\mathbf{w}}$ by its mean and KL
divergence from $P_{\mathbf{w}}$ to constrain the compression cost to the
desired value by construction. We demonstrate that variational training with
Mean-KL parameterization converges twice as fast and maintains predictive
performance after compression. Furthermore, we show that Mean-KL leads to more
meaningful variational distributions with heavier tails and compressed weight
samples which are more robust to pruning.
- Abstract(参考訳): 本稿では,変分ベイズニューラルネットワークの圧縮に用いる2種類の最小ランダム符号学習(MIRACLE)の質的挙動とロバスト性について検討する。
MIRACLEは、ウェイト後部$Q_{\mathbf{w}}$に対して強力で条件付きガウス変分近似を実装し、相対エントロピー符号化を用いてガウス符号分布$P_{\mathbf{w}}$を用いて後部から重量サンプルを圧縮する。
所望の圧縮率を達成するには、$d_{\mathrm{kl}}[q_{\mathbf{w}} \vert p_{\mathbf{w}}]$ を制約しなければならない。
代わりに、$q_{\mathbf{w}}$ を平均でパラメータ化し、kl を $p_{\mathbf{w}}$ から分岐させ、圧縮コストを構成によって所望の値に制限する。
我々は,平均-KLパラメータ化による変動学習が2倍の速度で収束し,圧縮後の予測性能を維持することを示した。
さらに, 平均-KLは, より重い尾と圧縮された重みを持つ, より有意義な変動分布をもたらすことを示した。
関連論文リスト
- Variance Reduction for the Independent Metropolis Sampler [11.074080383657453]
我々は、$pi$がKL分散の下で別の密度$q$に十分近い場合、$pi$からサンプルを得る独立したサンプリング器は、$pi$からサンプリングするi.d.よりも小さな分散を達成することを証明した。
提案手法は,KLの目標との偏差が低減されるように,提案密度に適応する適応型独立メトロポリスアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-25T16:38:53Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - (Accelerated) Noise-adaptive Stochastic Heavy-Ball Momentum [7.095058159492494]
ヘビーボール運動量(SHB)は、機械学習モデルのトレーニングに一般的に用いられ、勾配降下の反復よりも経験的な改善を提供することが多い。
SHB は小サイズが $kappa の閾値 $b* よりも大きい場合に加速できることを示す。
論文 参考訳(メタデータ) (2024-01-12T18:17:28Z) - Compressed and distributed least-squares regression: convergence rates
with applications to Federated Learning [9.31522898261934]
機械学習の勾配アルゴリズムに対する圧縮の影響について検討する。
いくつかの非バイアス圧縮演算子間の収束率の差を強調した。
我々はその結果を連合学習の事例にまで拡張する。
論文 参考訳(メタデータ) (2023-08-02T18:02:00Z) - Sharper Analysis for Minibatch Stochastic Proximal Point Methods:
Stability, Smoothness, and Deviation [41.082982732100696]
我々は,凸複合リスク最小化問題の解法として,近位点法(M-SPP)のミニバッチ変種について検討した。
ミニバッチサイズが$n$で二次数が$T$のM-SPPは、予想外収束の速さを楽しむことを示す。
小さい$n$-large-$T$設定では、この結果はSPP型アプローチの最もよく知られた結果を大幅に改善する。
論文 参考訳(メタデータ) (2023-01-09T00:13:34Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Permutation Compressors for Provably Faster Distributed Nonconvex
Optimization [68.8204255655161]
本稿では,Gorbunov et al (2021) の MARINA 法が,理論的な通信複雑性の観点から最先端の手法とみなすことができることを示す。
MARINAの理論は、古典的な独立圧縮機設定を超えて、潜在的にエミュレートされた圧縮機の理論を支持するものである。
論文 参考訳(メタデータ) (2021-10-07T09:38:15Z) - Convergence of Sparse Variational Inference in Gaussian Processes
Regression [29.636483122130027]
計算コストが$mathcalO(log N)2D(log N)2)$の手法を推論に利用できることを示す。
論文 参考訳(メタデータ) (2020-08-01T19:23:34Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z) - On Biased Compression for Distributed Learning [55.89300593805943]
バイアス圧縮機が単一ノードと分散設定の両方において線形収束率をもたらすことを初めて示す。
理論的保証と実用性能を期待できる新しいバイアス圧縮機を提案する。
論文 参考訳(メタデータ) (2020-02-27T19:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。