論文の概要: A framework for overparameterized learning
- arxiv url: http://arxiv.org/abs/2205.13507v1
- Date: Thu, 26 May 2022 17:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:53:41.407100
- Title: A framework for overparameterized learning
- Title(参考訳): 過パラメータ学習のためのフレームワーク
- Authors: D\'avid Terj\'ek, Diego Gonz\'alez-S\'anchez
- Abstract要約: ディープニューラルネットワークの成功に関する説明は、理論的機械学習における中心的な問題である。
本稿では,多くの一般的な問題をカバーするのに十分な,プロトタイプ学習問題からなるフレームワークを提案する。
次に、教師付き学習、変分オートエンコーダ、勾配ペナルティによるトレーニングがプロトタイプ問題に変換可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An explanation for the success of deep neural networks is a central question
in theoretical machine learning. According to classical statistical learning,
the overparameterized nature of such models should imply a failure to
generalize. Many argue that good empirical performance is due to the implicit
regularization of first order optimization methods. In particular, the
Polyak-{\L}ojasiewicz condition leads to gradient descent finding a global
optimum that is close to initialization. In this work, we propose a framework
consisting of a prototype learning problem, which is general enough to cover
many popular problems and even the cases of infinitely wide neural networks and
infinite data. We then perform an analysis from the perspective of the
Polyak-{\L}ojasiewicz condition. We obtain theoretical results of independent
interest, concerning gradient descent on a composition $(f \circ F): G \to
\mathbb{R}$ of functions $F: G \to H$ and $f: H \to \mathbb{R}$ with $G, H$
being Hilbert spaces. Building on these results, we determine the properties
that have to be satisfied by the components of the prototype problem for
gradient descent to find a global optimum that is close to initialization. We
then demonstrate that supervised learning, variational autoencoders and
training with gradient penalty can be translated to the prototype problem.
Finally, we lay out a number of directions for future research.
- Abstract(参考訳): ディープニューラルネットワークの成功に関する説明は、理論的機械学習における中心的な問題である。
古典的統計学習によれば、そのようなモデルの過度にパラメータ化された性質は一般化の失敗を意味する。
優れた経験的性能は、一階最適化法の暗黙の正規化によるものであると主張する者も多い。
特に、Polyak-{\L}ojasiewicz条件は、初期化に近い大域的最適点を求める勾配降下をもたらす。
本研究では,多くの一般的な問題や,無限大のニューラルネットワークや無限のデータであってもカバーできるような,プロトタイプ学習問題からなるフレームワークを提案する。
次に、Polyak-{\L}ojasiewicz条件の観点から解析を行う。
f \circ f: g \to \mathbb{r}$ of functions $f: g \to h$ および $f: h \to \mathbb{r}$ with $g, h$ ヒルベルト空間である。
これらの結果に基づき,初期化に近い大域的最適度を求めるために,勾配降下のためのプロトタイプ問題の構成要素によって満足すべき特性を決定する。
次に,教師付き学習,変分オートエンコーダ,勾配ペナルティによるトレーニングをプロトタイプ問題に翻訳できることを実証する。
最後に,今後の研究の方向性について概説する。
関連論文リスト
- Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - Restricted Strong Convexity of Deep Learning Models with Smooth
Activations [31.003601717265006]
本研究では,スムーズなアクティベーション機能を持つディープラーニングモデルの最適化問題について検討する。
Restricted Strong Convexity (RSC) に基づく最適化の新しい解析手法を提案する。
深層学習モデルのためのRCCに基づくGDの幾何収束性を確立するための最初の結果である。
論文 参考訳(メタデータ) (2022-09-29T21:24:26Z) - Mirror Descent Maximizes Generalized Margin and Can Be Implemented
Efficiently [34.438887960077025]
p$-$textsfGD$が学習モデルの構造と一般化性能に顕著に影響を及ぼすことを示す。
また、$p$-$textsfGD$はSGDと同じ方法で完全に並列であり、ディープニューラルネットワークのトレーニングに使用できることを示す。
論文 参考訳(メタデータ) (2022-05-25T14:33:13Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - A Geometric Analysis of Neural Collapse with Unconstrained Features [40.66585948844492]
Neural;Collapse$の最初のグローバル最適化ランドスケープ分析を提供します。
この現象は、トレーニングの終末期におけるニューラルネットワークのラスト層分類器と特徴に現れる。
論文 参考訳(メタデータ) (2021-05-06T00:00:50Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Learning the Hypotheses Space from data: Learning Space and U-curve
Property [0.0]
本稿では、学習問題を仮説空間$mathcalH$だけでなく、学習空間$mathbbL(mathcalH)$でモデル化する古典的なPAC学習モデルの拡張について述べる。
我々の主な貢献は、$mathbbL(mathcalH)$で正規化モデル選択を行うデータ駆動の一般学習アルゴリズムである。
論文 参考訳(メタデータ) (2020-01-26T22:29:33Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z) - Why Learning of Large-Scale Neural Networks Behaves Like Convex
Optimization [6.852561400929072]
非スケール最適化問題の解法として単純な勾配降下法が成功した理由を説明するための理論的研究について述べる。
NN学習の目的関数が標準モデル空間の凸であることを示す。
論文 参考訳(メタデータ) (2019-03-06T02:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。