論文の概要: On the generalization of learning algorithms that do not converge
- arxiv url: http://arxiv.org/abs/2208.07951v1
- Date: Tue, 16 Aug 2022 21:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:34:29.835346
- Title: On the generalization of learning algorithms that do not converge
- Title(参考訳): 収束しない学習アルゴリズムの一般化について
- Authors: Nisha Chandramoorthy, Andreas Loukas, Khashayar Gatmiry, Stefanie
Jegelka
- Abstract要約: ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
- 参考スコア(独自算出の注目度): 54.122745736433856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization analyses of deep learning typically assume that the training
converges to a fixed point. But, recent results indicate that in practice, the
weights of deep neural networks optimized with stochastic gradient descent
often oscillate indefinitely. To reduce this discrepancy between theory and
practice, this paper focuses on the generalization of neural networks whose
training dynamics do not necessarily converge to fixed points. Our main
contribution is to propose a notion of statistical algorithmic stability (SAS)
that extends classical algorithmic stability to non-convergent algorithms and
to study its connection to generalization. This ergodic-theoretic approach
leads to new insights when compared to the traditional optimization and
learning theory perspectives. We prove that the stability of the
time-asymptotic behavior of a learning algorithm relates to its generalization
and empirically demonstrate how loss dynamics can provide clues to
generalization performance. Our findings provide evidence that networks that
"train stably generalize better" even when the training continues indefinitely
and the weights do not converge.
- Abstract(参考訳): ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定する。
しかし、最近の研究では、確率勾配勾配に最適化されたディープニューラルネットワークの重みが、しばしば無限に振動することが示されている。
理論と実践の相違を減らすため,本論文では,トレーニングダイナミクスが必ずしも不動点に収束しないニューラルネットワークの一般化について述べる。
従来のアルゴリズム安定性を非収束アルゴリズムに拡張した統計アルゴリズム安定性 (sas) の概念を提案し,その一般化への応用について検討する。
このエルゴード理論のアプローチは、従来の最適化と学習理論の観点と比較して新たな洞察をもたらす。
学習アルゴリズムの時間漸近挙動の安定性は、その一般化と関連し、損失ダイナミクスが一般化性能の手がかりとなることを実証的に示す。
我々の発見は、トレーニングが無期限に継続し、重みが収束しない場合でも、トレーニングが「安定して一般化する」ネットワークがより良くなることを示す。
関連論文リスト
- Understanding Generalization of Federated Learning: the Trade-off between Model Stability and Optimization [22.577751005038543]
Federated Learning(FL)は、複数のデバイスにまたがるニューラルネットワークをトレーニングする分散学習アプローチである。
FLはデータの不均一性のためにしばしば課題に直面し、クライアント間の一貫性のないローカルオプティマに繋がる。
本稿では,フェデレート最適化における第1次一般化ダイナミクス解析フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-11-25T11:43:22Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Learning Non-Vacuous Generalization Bounds from Optimization [8.294831479902658]
最適化の観点からは、単純だが空でない一般化を示す。
我々は、勾配アルゴリズムによってアクセスされた仮説セットが本質的にフラクタル的であることを利用して、この目標を達成する。
数値解析により,現代のニューラルネットワークにおいて,本手法が有意な一般化を保証することが実証された。
論文 参考訳(メタデータ) (2022-06-09T08:59:46Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Strong overall error analysis for the training of artificial neural
networks via random initializations [3.198144010381572]
その結果,同じ近似速度を得るためには,ニューラルネットワークの深さがはるかに遅くなるだけでよいことがわかった。
i.i.dの任意の最適化アルゴリズムの場合、結果は保持される。
ランダム初期化。
論文 参考訳(メタデータ) (2020-12-15T17:34:16Z) - Learning Fast Approximations of Sparse Nonlinear Regression [50.00693981886832]
本研究では,Threshold Learned Iterative Shrinkage Algorithming (NLISTA)を導入することでギャップを埋める。
合成データを用いた実験は理論結果と相関し,その手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-26T11:31:08Z) - Optimization and Generalization of Regularization-Based Continual
Learning: a Loss Approximation Viewpoint [35.5156045701898]
各タスクの損失関数の2階Taylor近似として定式化することにより、正規化に基づく連続学習の新しい視点を提供する。
この観点から、正規化に基づく連続学習の最適化側面(収束)と一般化特性(有限サンプル保証)を考察する。
論文 参考訳(メタデータ) (2020-06-19T06:08:40Z) - Distance-Based Regularisation of Deep Networks for Fine-Tuning [116.71288796019809]
我々は,仮説クラスを,初期訓練前の重みを中心にした小さな球面に制約するアルゴリズムを開発した。
実験的な評価は、我々のアルゴリズムがうまく機能していることを示し、理論的な結果を裏付けるものである。
論文 参考訳(メタデータ) (2020-02-19T16:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。