論文の概要: Loss Gradient Gaussian Width based Generalization and Optimization Guarantees
- arxiv url: http://arxiv.org/abs/2406.07712v1
- Date: Tue, 11 Jun 2024 20:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 21:06:16.985967
- Title: Loss Gradient Gaussian Width based Generalization and Optimization Guarantees
- Title(参考訳): 損失勾配ガウス幅に基づく一般化と最適化保証
- Authors: Arindam Banerjee, Qiaobo Li, Yingxue Zhou,
- Abstract要約: 我々は、Los Gradient Gaussian Width (LGGW)によって測定された勾配の複雑さの観点から一般化と最適化を保証する。
有限和(確率)最適化におけるサンプルの再利用は、LGGWが小さい限り、経験的勾配を人口から逸脱させるものではないことを示す。
我々のLGGWの一般化と最適化の保証は、このタイプの最初の結果であり、予測器ラデマッハの複雑性に基づく解析の落とし穴を回避し、深層モデルの量的厳密な境界に対するかなりの保証を保っている。
- 参考スコア(独自算出の注目度): 9.10505154108852
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generalization and optimization guarantees on the population loss in machine learning often rely on uniform convergence based analysis, typically based on the Rademacher complexity of the predictors. The rich representation power of modern models has led to concerns about this approach. In this paper, we present generalization and optimization guarantees in terms of the complexity of the gradients, as measured by the Loss Gradient Gaussian Width (LGGW). First, we introduce generalization guarantees directly in terms of the LGGW under a flexible gradient domination condition, which we demonstrate to hold empirically for deep models. Second, we show that sample reuse in finite sum (stochastic) optimization does not make the empirical gradient deviate from the population gradient as long as the LGGW is small. Third, focusing on deep networks, we present results showing how to bound their LGGW under mild assumptions. In particular, we show that their LGGW can be bounded (a) by the $L_2$-norm of the loss Hessian eigenvalues, which has been empirically shown to be $\tilde{O}(1)$ for commonly used deep models; and (b) in terms of the Gaussian width of the featurizer, i.e., the output of the last-but-one layer. To our knowledge, our generalization and optimization guarantees in terms of LGGW are the first results of its kind, avoid the pitfalls of predictor Rademacher complexity based analysis, and hold considerable promise towards quantitatively tight bounds for deep models.
- Abstract(参考訳): 機械学習における集団損失の一般化と最適化は、しばしば一様収束に基づく解析に頼っている。
現代のモデルの豊かな表現力は、このアプローチに対する懸念につながっている。
本稿では,Loss Gradient Gaussian Width (LGGW)によって測定された勾配の複雑さの観点から,一般化と最適化の保証を示す。
まず,LGGWのフレキシブルな勾配支配条件下での一般化保証を導入する。
第二に, 有限和最適化におけるサンプル再利用は, LGGWが小さい限り, 集団勾配から経験的勾配を逸脱させるものではないことを示す。
第3に、ディープネットワークに着目し、軽度な仮定の下でLGGWをバインドする方法を示す。
特に,LGGWは有界であることを示す。
(a) 損失ヘッセン固有値の$L_2$-normにより、一般に使用されるディープモデルに対して$\tilde{O}(1)$と実証的に示されている。
(b) プロデューサのガウス幅、すなわち、最後のただし1層の出力の点で。
我々の知る限り、LGGWによる一般化と最適化の保証は、その種の第一の結果であり、予測器ラデマッハの複雑性に基づく解析の落とし穴を回避し、深層モデルの量的に厳密な境界に対するかなりの保証を保っている。
関連論文リスト
- Nesterov acceleration in benignly non-convex landscapes [0.0]
本研究では, モーメントに基づく最適化アルゴリズムが, 深層学習問題の非凸設定に応用可能であることを示す。
本稿では、加速理論と実践設定のこのギャップを部分的に埋める。
論文 参考訳(メタデータ) (2024-10-10T22:02:10Z) - Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Global convergence of optimized adaptive importance samplers [0.0]
我々は,モンテカルロを一般提案と統合するために最適化された適応的重要度サンプリング器 (OAIS) を解析した。
我々は、提案に対する$chi2$-divergenceの大域的勾配に対する漸近的境界を導出する。
論文 参考訳(メタデータ) (2022-01-02T19:56:36Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。