論文の概要: From Mutual Information to Expected Dynamics: New Generalization Bounds
for Heavy-Tailed SGD
- arxiv url: http://arxiv.org/abs/2312.00427v1
- Date: Fri, 1 Dec 2023 08:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:20:50.106920
- Title: From Mutual Information to Expected Dynamics: New Generalization Bounds
for Heavy-Tailed SGD
- Title(参考訳): 相互情報から期待されるダイナミクスへ:重機SGDの新しい一般化境界
- Authors: Benjamin Dupuis, Paul Viallard
- Abstract要約: 近年,SGD(Gradient Descent)の学習力学は重み付け力学と関係している。
本研究では,重み付き力学のクラスに対する一般化境界を,それらの相互情報項を使わずに証明する。
ヘビーテールドとフラクタル文学の技法を駆使して、この幾何学用語をさらに上向きにし、完全に計算可能である。
- 参考スコア(独自算出の注目度): 3.885014589870715
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding the generalization abilities of modern machine learning
algorithms has been a major research topic over the past decades. In recent
years, the learning dynamics of Stochastic Gradient Descent (SGD) have been
related to heavy-tailed dynamics. This has been successfully applied to
generalization theory by exploiting the fractal properties of those dynamics.
However, the derived bounds depend on mutual information (decoupling) terms
that are beyond the reach of computability. In this work, we prove
generalization bounds over the trajectory of a class of heavy-tailed dynamics,
without those mutual information terms. Instead, we introduce a geometric
decoupling term by comparing the learning dynamics (depending on the empirical
risk) with an expected one (depending on the population risk). We further
upper-bound this geometric term, by using techniques from the heavy-tailed and
the fractal literature, making it fully computable. Moreover, as an attempt to
tighten the bounds, we propose a PAC-Bayesian setting based on perturbed
dynamics, in which the same geometric term plays a crucial role and can still
be bounded using the techniques described above.
- Abstract(参考訳): 現代の機械学習アルゴリズムの一般化能力を理解することは、過去数十年で主要な研究トピックとなっている。
近年,確率的勾配降下(sgd)の学習ダイナミクスは,重み付き力学と関連している。
これはそれらの力学のフラクタル特性を利用して一般化理論にうまく応用されている。
しかし、導出された境界は計算可能性の範囲を超えている相互情報(疎結合)に依る。
本研究では,これらの相互情報項を使わずに,重項力学の軌跡上の一般化を証明した。
代わりに,学習のダイナミクス(経験的リスクに依存する)と期待されるもの(人口リスクに依存する)を比較することにより,幾何学的分離という用語を導入する。
ヘビーテールドとフラクタル文学の技法を駆使して、この幾何学用語をさらに上向きにし、完全に計算可能である。
さらに, 境界を狭める試みとして, 同じ幾何学的用語が重要な役割を担い, 上述の手法を用いても有界化が可能である摂動力学に基づくPAC-ベイズ的設定を提案する。
関連論文リスト
- Generalization Bounds with Data-dependent Fractal Dimensions [5.833272638548154]
フラクタル幾何学に基づく一般化境界をリプシッツの仮定を必要とせずに証明する。
技術的な複雑さは相当に多いが、この新しい概念は一般化誤差を制御できる。
論文 参考訳(メタデータ) (2023-02-06T13:24:48Z) - PAC-Bayes Compression Bounds So Tight That They Can Explain
Generalization [48.26492774959634]
線形部分空間におけるニューラルネットワークパラメータの量子化に基づく圧縮手法を開発した。
我々は、オッカムのカミソリをカプセル化した大きなモデルを、以前に知られていたよりもはるかに大きな範囲に圧縮できることを発見した。
論文 参考訳(メタデータ) (2022-11-24T13:50:16Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。
本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。
提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文 参考訳(メタデータ) (2022-05-21T08:39:42Z) - Rate-Distortion Theoretic Generalization Bounds for Stochastic Learning
Algorithms [12.020634332110147]
我々は、レート歪曲理論のレンズを通して、新しい一般化が有界であることを証明している。
我々の結果は、一般化に関するより統一された視点をもたらし、将来の研究方向性を開拓する。
論文 参考訳(メタデータ) (2022-03-04T18:12:31Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Modern Koopman Theory for Dynamical Systems [2.5889588665122725]
現代のクープマン作用素論を概観し、最近の理論とアルゴリズムの発展について述べる。
また、急速に成長する機械学習分野における重要な進歩と課題についても論じる。
論文 参考訳(メタデータ) (2021-02-24T06:18:16Z) - Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。
実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文 参考訳(メタデータ) (2020-06-15T08:23:20Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。