論文の概要: Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD
- arxiv url: http://arxiv.org/abs/2110.13750v1
- Date: Tue, 26 Oct 2021 15:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 17:43:24.552845
- Title: Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD
- Title(参考訳): SGLDにおける異方性雑音による情報理論一般化境界の最適化
- Authors: Bohan Wang, Huishuai Zhang, Jieyu Zhang, Qi Meng, Wei Chen, Tie-Yan
Liu
- Abstract要約: SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
- 参考スコア(独自算出の注目度): 73.55632827932101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the information-theoretical framework has been proven to be able to
obtain non-vacuous generalization bounds for large models trained by Stochastic
Gradient Langevin Dynamics (SGLD) with isotropic noise. In this paper, we
optimize the information-theoretical generalization bound by manipulating the
noise structure in SGLD. We prove that with constraint to guarantee low
empirical risk, the optimal noise covariance is the square root of the expected
gradient covariance if both the prior and the posterior are jointly optimized.
This validates that the optimal noise is quite close to the empirical gradient
covariance. Technically, we develop a new information-theoretical bound that
enables such an optimization analysis. We then apply matrix analysis to derive
the form of optimal noise covariance. Presented constraint and results are
validated by the empirical observations.
- Abstract(参考訳): 近年、情報理論の枠組みは、SGLD(Stochastic Gradient Langevin Dynamics)によって訓練された大きなモデルに対して、等方性雑音を伴う非空一般化境界が得られることが証明されている。
本稿では,SGLDにおける雑音構造を操作することにより,情報理論の一般化を最適化する。
実験的リスクを低く抑えるために制約を課すことで、前と後の両方が共同最適化された場合、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
これは、最適雑音が経験的勾配共分散にかなり近いことを検証する。
技術的には、そのような最適化分析を可能にする新しい情報理論境界を開発する。
次に、最適雑音共分散の形式を導出するために行列解析を適用する。
提示された制約と結果は経験的観察によって検証される。
関連論文リスト
- Gradient Normalization with(out) Clipping Ensures Convergence of Nonconvex SGD under Heavy-Tailed Noise with Improved Results [60.92029979853314]
本稿では,NSGDCを含まない勾配正規化(NSGDC-VR)について検討する。
両アルゴリズムの理論的結果の大幅な改善について述べる。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Heavy-tailed denoising score matching [5.371337604556311]
ランゲヴィン力学における複数のノイズレベルを連続的に初期化する反復的雑音スケーリングアルゴリズムを開発した。
実用面では、重み付きDSMを用いることで、スコア推定、制御可能なサンプリング収束、不均衡データセットに対するよりバランスのない非条件生成性能が改善される。
論文 参考訳(メタデータ) (2021-12-17T22:04:55Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Noisy Gradient Descent Converges to Flat Minima for Nonconvex Matrix
Factorization [36.182992409810446]
本稿では,非最適化問題における雑音の重要性について考察する。
勾配勾配勾配は、入射雑音によって決定される大域バイアスに収束する任意の大域的な形式に収束できることを示す。
論文 参考訳(メタデータ) (2021-02-24T17:50:17Z) - Sample-Optimal PAC Learning of Halfspaces with Malicious Noise [4.8728183994912415]
Valiant(1985)の悪意のあるノイズの存在下で$mathRd$の半空間の効率的なPAC学習を研究します。
Awasthi et alのアルゴリズムのための新しい分析を提示します。
そして、ほぼ最適に近いサンプル複雑性を$tildeo(d)$という値で達成できることを示します。
Bbbshoutyetal (2002) のより一般的で強力なノイズモデルにアルゴリズムと解析を拡張し、ほぼ最適なノイズ耐性とサンプルの複雑さを時間内に達成可能であることを示す。
論文 参考訳(メタデータ) (2021-02-11T20:18:20Z) - Beyond variance reduction: Understanding the true impact of baselines on
policy optimization [24.09670734037029]
学習力学は損失関数の曲率と勾配推定の雑音によって制御されることを示す。
我々は,少なくとも包帯問題では,曲率や雑音が学習力学を説明するのに十分でないことを示す理論的結果を示す。
論文 参考訳(メタデータ) (2020-08-31T17:52:09Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。