Fugu-MT 論文翻訳(概要): From Mutual Information to Expected Dynamics: New Generalization Bounds for Heavy-Tailed SGD

論文の概要: From Mutual Information to Expected Dynamics: New Generalization Bounds for Heavy-Tailed SGD

arxiv url: http://arxiv.org/abs/2312.00427v1
Date: Fri, 1 Dec 2023 08:50:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 15:20:50.106920
Title: From Mutual Information to Expected Dynamics: New Generalization Bounds for Heavy-Tailed SGD
Title（参考訳）: 相互情報から期待されるダイナミクスへ:重機SGDの新しい一般化境界
Authors: Benjamin Dupuis, Paul Viallard
Abstract要約: 近年,SGD(Gradient Descent)の学習力学は重み付け力学と関係している。本研究では,重み付き力学のクラスに対する一般化境界を,それらの相互情報項を使わずに証明する。ヘビーテールドとフラクタル文学の技法を駆使して、この幾何学用語をさらに上向きにし、完全に計算可能である。
参考スコア（独自算出の注目度）: 3.885014589870715
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Understanding the generalization abilities of modern machine learning algorithms has been a major research topic over the past decades. In recent years, the learning dynamics of Stochastic Gradient Descent (SGD) have been related to heavy-tailed dynamics. This has been successfully applied to generalization theory by exploiting the fractal properties of those dynamics. However, the derived bounds depend on mutual information (decoupling) terms that are beyond the reach of computability. In this work, we prove generalization bounds over the trajectory of a class of heavy-tailed dynamics, without those mutual information terms. Instead, we introduce a geometric decoupling term by comparing the learning dynamics (depending on the empirical risk) with an expected one (depending on the population risk). We further upper-bound this geometric term, by using techniques from the heavy-tailed and the fractal literature, making it fully computable. Moreover, as an attempt to tighten the bounds, we propose a PAC-Bayesian setting based on perturbed dynamics, in which the same geometric term plays a crucial role and can still be bounded using the techniques described above.
Abstract（参考訳）: 現代の機械学習アルゴリズムの一般化能力を理解することは、過去数十年で主要な研究トピックとなっている。近年,確率的勾配降下(sgd)の学習ダイナミクスは,重み付き力学と関連している。これはそれらの力学のフラクタル特性を利用して一般化理論にうまく応用されている。しかし、導出された境界は計算可能性の範囲を超えている相互情報(疎結合)に依る。本研究では,これらの相互情報項を使わずに,重項力学の軌跡上の一般化を証明した。代わりに,学習のダイナミクス(経験的リスクに依存する)と期待されるもの(人口リスクに依存する)を比較することにより,幾何学的分離という用語を導入する。ヘビーテールドとフラクタル文学の技法を駆使して、この幾何学用語をさらに上向きにし、完全に計算可能である。さらに, 境界を狭める試みとして, 同じ幾何学的用語が重要な役割を担い, 上述の手法を用いても有界化が可能である摂動力学に基づくPAC-ベイズ的設定を提案する。

関連論文リスト

Mutual Information Free Topological Generalization Bounds via Stability [46.63069403118614]
既存の戦略から離れる新しい学習理論フレームワークを導入する。トラジェクトリ安定アルゴリズムの一般化誤差をTDA項で上界化できることを示す。
論文参考訳（メタデータ） (2025-07-09T12:03:25Z)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
Topological Generalization Bounds for Discrete-Time Stochastic Optimization Algorithms [15.473123662393169]
ディープニューラルネットワーク(DNN)は、顕著な一般化特性を示す。これらの能力の源泉は依然として解明され、確立された統計的学習理論を否定している。近年の研究では、訓練軌跡の性質が一般化の指標であることが示されている。
論文参考訳（メタデータ） (2024-07-11T17:56:03Z)
Relational Learning in Pre-Trained Models: A Theory from Hypergraph Recovery Perspective [60.64922606733441]
我々は,関係学習をハイパーグラフリカバリとして形式化する数学的モデルを導入し,基礎モデル(FM)の事前学習について検討する。我々のフレームワークでは、世界はハイパーグラフとして表現され、データはハイパーエッジからランダムなサンプルとして抽象化される。我々は、このハイパーグラフを復元するための事前学習モデル(PTM)の有効性を理論的に検証し、ミニマックスに近い最適スタイルでデータ効率を解析する。
論文参考訳（メタデータ） (2024-06-17T06:20:39Z)
Understanding Forgetting in Continual Learning with Linear Regression [21.8755265936716]
連続的な学習は、複数のタスクを逐次学習することに焦点を当てており、近年大きな注目を集めている。線形回帰モデルにおいて, 線形回帰モデルをグラディエント・ディッセンス(Gradient Descent)を用いて, 忘れることの一般的な理論的解析を行う。十分なデータサイズを考慮に入れれば、集団データ共分散行列の固有値が大きいタスクが後で訓練されるようなシーケンス内のタスクの配置は、忘れが増す傾向にあることを実証する。
論文参考訳（メタデータ） (2024-05-27T18:33:37Z)
Generalization Bounds with Data-dependent Fractal Dimensions [5.833272638548154]
フラクタル幾何学に基づく一般化境界をリプシッツの仮定を必要とせずに証明する。技術的な複雑さは相当に多いが、この新しい概念は一般化誤差を制御できる。
論文参考訳（メタデータ） (2023-02-06T13:24:48Z)
PAC-Bayes Compression Bounds So Tight That They Can Explain Generalization [48.26492774959634]
線形部分空間におけるニューラルネットワークパラメータの量子化に基づく圧縮手法を開発した。我々は、オッカムのカミソリをカプセル化した大きなモデルを、以前に知られていたよりもはるかに大きな範囲に圧縮できることを発見した。
論文参考訳（メタデータ） (2022-11-24T13:50:16Z)
Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文参考訳（メタデータ） (2022-05-21T08:39:42Z)
Fractal Structure and Generalization Properties of Stochastic Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文参考訳（メタデータ） (2021-06-09T08:05:36Z)
Modern Koopman Theory for Dynamical Systems [2.5889588665122725]
現代のクープマン作用素論を概観し、最近の理論とアルゴリズムの発展について述べる。また、急速に成長する機械学習分野における重要な進歩と課題についても論じる。
論文参考訳（メタデータ） (2021-02-24T06:18:16Z)
Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文参考訳（メタデータ） (2020-06-15T08:23:20Z)
Context-aware Dynamics Model for Generalization in Model-Based Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文参考訳（メタデータ） (2020-05-14T08:10:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。