論文の概要: On the Theory of Implicit Deep Learning: Global Convergence with
Implicit Layers
- arxiv url: http://arxiv.org/abs/2102.07346v2
- Date: Thu, 18 Feb 2021 18:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 11:57:43.778259
- Title: On the Theory of Implicit Deep Learning: Global Convergence with
Implicit Layers
- Title(参考訳): 暗黙的深層学習の理論--暗黙的層を用いた大域的収束
- Authors: Kenji Kawaguchi
- Abstract要約: 深い平衡モデルは、計算の平衡点列を通じて暗黙的に定義される暗黙的な数値列を用いる。
本研究では,深い暗黙のダイナミックスと浅い信頼層のダイナミックス法のダイナミックスの関係を実証する。
- 参考スコア(独自算出の注目度): 6.548580592686076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A deep equilibrium model uses implicit layers, which are implicitly defined
through an equilibrium point of an infinite sequence of computation. It avoids
any explicit computation of the infinite sequence by finding an equilibrium
point directly via root-finding and by computing gradients via implicit
differentiation. In this paper, we analyze the gradient dynamics of deep
equilibrium models with nonlinearity only on weight matrices and non-convex
objective functions of weights for regression and classification. Despite
non-convexity, convergence to global optimum at a linear rate is guaranteed
without any assumption on the width of the models, allowing the width to be
smaller than the output dimension and the number of data points. Moreover, we
prove a relation between the gradient dynamics of the deep implicit layer and
the dynamics of trust region Newton method of a shallow explicit layer. This
mathematically proven relation along with our numerical observation suggests
the importance of understanding implicit bias of implicit layers and an open
problem on the topic. Our proofs deal with implicit layers, weight tying and
nonlinearity on weights, and differ from those in the related literature.
- Abstract(参考訳): 深い平衡モデルは暗黙の層を使い、無限の計算列の平衡点を通して暗黙的に定義される。
これは、ルートフィンディングによって直接平衡点を見つけ、暗黙の微分を通じて勾配を計算することによって無限列の明示的な計算を避ける。
本稿では,重み行列と重みの非凸目的関数のみに非線形性をもつ深部平衡モデルの勾配ダイナミクスを回帰と分類のために解析する。
非凸性にもかかわらず、線形速度で最適なグローバルへの収束は、モデルの幅を前提にすることなく保証され、幅は出力寸法とデータポイントの数よりも小さくなります。
さらに,深い暗黙層の勾配ダイナミクスと浅い明示層の信頼領域ニュートン法のダイナミクスとの関係を証明した。
この数学的に証明された関係と数値的観察は、暗黙の層の暗黙のバイアスを理解することの重要性を示唆し、トピックに関するオープンな問題である。
我々の証明は、暗黙の層、重み付け、およびウェイト上の非線形性を扱うもので、関連する文献と異なる。
関連論文リスト
- Weak Correlations as the Underlying Principle for Linearization of
Gradient-Based Learning Systems [1.0878040851638]
本稿では,パラメータの動的構造を線形に表示する勾配降下に基づく学習アルゴリズムについて述べる。
この明らかな線型性は、仮説関数の第一階微分と高階微分の間の弱い相関によるものである。
線形性と弱相関の関係を爆発させることにより,勾配降下の訓練軌道中に観測された線形性から偏差を導出する。
論文 参考訳(メタデータ) (2024-01-08T16:44:23Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Gradient is All You Need? [0.0]
本稿では、コンセンサスに基づく勾配最適化(CBO)の解釈による学習アルゴリズムの理論的理解に関する新しい分析的視点を提供する。
本研究は,非局所景観関数の複雑さを軽減するため,CBOの本質的な能力を証明するものである。
論文 参考訳(メタデータ) (2023-06-16T11:30:55Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Dynamical chaos in nonlinear Schr\"odinger models with subquadratic
power nonlinearity [137.6408511310322]
ランダムポテンシャルと準4次パワー非線形性を持つ非線形シュリンガー格子のクラスを扱う。
拡散過程は亜拡散性であり, 微細構造が複雑であることを示す。
二次パワー非線形性の限界も議論され、非局在化境界をもたらすことが示されている。
論文 参考訳(メタデータ) (2023-01-20T16:45:36Z) - Global Convergence of Over-parameterized Deep Equilibrium Models [52.65330015267245]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。
無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。
本稿では,無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-27T08:00:13Z) - Gradient Descent Optimizes Infinite-Depth ReLU Implicit Networks with
Linear Widths [25.237054775800164]
本稿では非線形ReLU活性化暗黙ネットワークにおける勾配流と勾配勾配の収束について検討する。
GF と GD のどちらも,暗黙的ネットワークの幅$m$ が標本サイズでテキストリニアであれば,線形速度で大域最小値に収束することが証明される。
論文 参考訳(メタデータ) (2022-05-16T06:07:56Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。