論文の概要: Loss Gradient Gaussian Width based Generalization and Optimization Guarantees
- arxiv url: http://arxiv.org/abs/2406.07712v2
- Date: Tue, 11 Mar 2025 02:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 22:35:51.199372
- Title: Loss Gradient Gaussian Width based Generalization and Optimization Guarantees
- Title(参考訳): 損失勾配ガウス幅に基づく一般化と最適化保証
- Authors: Arindam Banerjee, Qiaobo Li, Yingxue Zhou,
- Abstract要約: 我々は、Los Gradient Gaussian Width (LGGW)によって測定された勾配の複雑さの観点から一般化と最適化を保証する。
我々の結果は、深部モデルに対する定量的に厳密な境界に対してかなり期待できる。
- 参考スコア(独自算出の注目度): 9.10505154108852
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generalization and optimization guarantees on the population loss often rely on uniform convergence based analysis, typically based on the Rademacher complexity of the predictors. The rich representation power of modern models has led to concerns about this approach. In this paper, we present generalization and optimization guarantees in terms of the complexity of the gradients, as measured by the Loss Gradient Gaussian Width (LGGW). First, we introduce generalization guarantees directly in terms of the LGGW under a flexible gradient domination condition, which includes the popular PL (Polyak-{\L}ojasiewicz) condition as a special case. Second, we show that sample reuse in iterative gradient descent does not make the empirical gradients deviate from the population gradients as long as the LGGW is small. Third, focusing on deep networks, we bound their single-sample LGGW in terms of the Gaussian width of the featurizer, i.e., the output of the last-but-one layer. To our knowledge, our generalization and optimization guarantees in terms of LGGW are the first results of its kind, and hold considerable promise towards quantitatively tight bounds for deep models.
- Abstract(参考訳): 人口減少の一般化と最適化は、しばしば一様収束に基づく解析に依存し、予測器のラデマッハ複雑性に基づいている。
現代のモデルの豊かな表現力は、このアプローチに対する懸念につながっている。
本稿では,Loss Gradient Gaussian Width (LGGW)によって測定された勾配の複雑さの観点から,一般化と最適化の保証を示す。
第一に、LGGW をフレキシブルな勾配支配条件で直接的に一般化保証を導入し、特に PL (Polyak-{\L}ojasiewicz) 条件が用いられる。
第2に,LGGWが小さい限り,反復勾配勾配下でのサンプル再利用は,集団勾配から逸脱しないことを示す。
第三に、ディープ・ネットワークに焦点を当てた単一サンプルLGGWを、プロデューサのガウス幅、すなわちラスト・ブット・ワン層の出力に縛り付ける。
我々の知る限り、LGGWの観点からの一般化と最適化の保証はこの種の最初の結果であり、深層モデルの量的に厳密な境界に対するかなりの保証を保っている。
関連論文リスト
- Nesterov acceleration in benignly non-convex landscapes [0.0]
本研究では, モーメントに基づく最適化アルゴリズムが, 深層学習問題の非凸設定に応用可能であることを示す。
本稿では、加速理論と実践設定のこのギャップを部分的に埋める。
論文 参考訳(メタデータ) (2024-10-10T22:02:10Z) - Convergence Analysis of Adaptive Gradient Methods under Refined Smoothness and Noise Assumptions [18.47705532817026]
AdaGradは特定の条件下では$d$でSGDより優れていることを示す。
これを動機として、目的物の滑らかさ構造と勾配のばらつきを仮定する。
論文 参考訳(メタデータ) (2024-06-07T02:55:57Z) - Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Achieving Margin Maximization Exponentially Fast via Progressive Norm Rescaling [6.8271468231014145]
線形分離可能なデータの分類における勾配に基づくアルゴリズムによるマージン最大化バイアスについて検討する。
我々は、プログレッシブ・リスケーリング・グラディエント(PRGD)と呼ばれる新しいアルゴリズムを提案し、PRGDがエム指数率でマージンを最大化できることを示す。
PRGDはまた、線形に分離できないデータセットやディープニューラルネットワークに適用する際の一般化性能の向上を約束している。
論文 参考訳(メタデータ) (2023-11-24T10:07:10Z) - Signal Processing Meets SGD: From Momentum to Filter [6.751292200515355]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。
本稿では,信号処理レンズを用いて勾配挙動を解析し,更新に影響を与える重要な要因を分離する。
本稿では,ワイナーフィルタの原理に基づく新しいSGDF手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T01:41:46Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Global convergence of optimized adaptive importance samplers [0.0]
我々は,モンテカルロを一般提案と統合するために最適化された適応的重要度サンプリング器 (OAIS) を解析した。
我々は、提案に対する$chi2$-divergenceの大域的勾配に対する漸近的境界を導出する。
論文 参考訳(メタデータ) (2022-01-02T19:56:36Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - Adaptive and Interpretable Graph Convolution Networks Using Generalized
Pagerank [44.22407074673142]
我々はGCNIIネットワークの各層で一般化されたページランクを学習するためにAdaGPRを提案する。
AdaGPR の一般化は正規化隣接行列の固有値スペクトルによって制限されることを示す。
論文 参考訳(メタデータ) (2021-08-24T10:39:14Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - A Unified Off-Policy Evaluation Approach for General Value Function [131.45028999325797]
一般価値関数(GVF)は、強化学習(RL)における予測的知識と振り返り的知識の両方を表現する強力なツールである。
本稿では,GVF評価のためのGenTDと呼ばれる新しいアルゴリズムを提案する。
我々は、GenTDが単一の標準スカラー値関数と同じくらい効率的に複数の相互関連多次元GVFを学習することを示す。
論文 参考訳(メタデータ) (2021-07-06T16:20:34Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。