論文の概要: Loss Gradient Gaussian Width based Generalization and Optimization Guarantees
- arxiv url: http://arxiv.org/abs/2406.07712v2
- Date: Tue, 11 Mar 2025 02:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:16:39.756910
- Title: Loss Gradient Gaussian Width based Generalization and Optimization Guarantees
- Title(参考訳): 損失勾配ガウス幅に基づく一般化と最適化保証
- Authors: Arindam Banerjee, Qiaobo Li, Yingxue Zhou,
- Abstract要約: 我々は、Los Gradient Gaussian Width (LGGW)によって測定された勾配の複雑さの観点から一般化と最適化を保証する。
我々の結果は、深部モデルに対する定量的に厳密な境界に対してかなり期待できる。
- 参考スコア(独自算出の注目度): 9.10505154108852
- License:
- Abstract: Generalization and optimization guarantees on the population loss often rely on uniform convergence based analysis, typically based on the Rademacher complexity of the predictors. The rich representation power of modern models has led to concerns about this approach. In this paper, we present generalization and optimization guarantees in terms of the complexity of the gradients, as measured by the Loss Gradient Gaussian Width (LGGW). First, we introduce generalization guarantees directly in terms of the LGGW under a flexible gradient domination condition, which includes the popular PL (Polyak-{\L}ojasiewicz) condition as a special case. Second, we show that sample reuse in iterative gradient descent does not make the empirical gradients deviate from the population gradients as long as the LGGW is small. Third, focusing on deep networks, we bound their single-sample LGGW in terms of the Gaussian width of the featurizer, i.e., the output of the last-but-one layer. To our knowledge, our generalization and optimization guarantees in terms of LGGW are the first results of its kind, and hold considerable promise towards quantitatively tight bounds for deep models.
- Abstract(参考訳): 人口減少の一般化と最適化は、しばしば一様収束に基づく解析に依存し、予測器のラデマッハ複雑性に基づいている。
現代のモデルの豊かな表現力は、このアプローチに対する懸念につながっている。
本稿では,Loss Gradient Gaussian Width (LGGW)によって測定された勾配の複雑さの観点から,一般化と最適化の保証を示す。
第一に、LGGW をフレキシブルな勾配支配条件で直接的に一般化保証を導入し、特に PL (Polyak-{\L}ojasiewicz) 条件が用いられる。
第2に,LGGWが小さい限り,反復勾配勾配下でのサンプル再利用は,集団勾配から逸脱しないことを示す。
第三に、ディープ・ネットワークに焦点を当てた単一サンプルLGGWを、プロデューサのガウス幅、すなわちラスト・ブット・ワン層の出力に縛り付ける。
我々の知る限り、LGGWの観点からの一般化と最適化の保証はこの種の最初の結果であり、深層モデルの量的に厳密な境界に対するかなりの保証を保っている。
関連論文リスト
- Nesterov acceleration in benignly non-convex landscapes [0.0]
本研究では, モーメントに基づく最適化アルゴリズムが, 深層学習問題の非凸設定に応用可能であることを示す。
本稿では、加速理論と実践設定のこのギャップを部分的に埋める。
論文 参考訳(メタデータ) (2024-10-10T22:02:10Z) - Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Global convergence of optimized adaptive importance samplers [0.0]
我々は,モンテカルロを一般提案と統合するために最適化された適応的重要度サンプリング器 (OAIS) を解析した。
我々は、提案に対する$chi2$-divergenceの大域的勾配に対する漸近的境界を導出する。
論文 参考訳(メタデータ) (2022-01-02T19:56:36Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。