論文の概要: A Simple Deep Equilibrium Model Converges to Global Optima with Weight
Tying
- arxiv url: http://arxiv.org/abs/2102.07346v1
- Date: Mon, 15 Feb 2021 05:08:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:16:38.219998
- Title: A Simple Deep Equilibrium Model Converges to Global Optima with Weight
Tying
- Title(参考訳): 重み付けによる簡易深度平衡モデルが世界最適に収束
- Authors: Kenji Kawaguchi
- Abstract要約: 深い平衡線形モデルは、バイアスの平衡点を通じて暗黙的に定義される。
これは、ルートフィンディングとニュートン微分によって直接バイアス点を見つけることによって、トピックの明示的な計算を避ける。
我々は,単純深層平衡モデルのダイナミクスと浅層勾配モデルのダイナミクスとの関係を証明した。
- 参考スコア(独自算出の注目度): 6.548580592686076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A deep equilibrium linear model is implicitly defined through an equilibrium
point of an infinite sequence of computation. It avoids any explicit
computation of the infinite sequence by finding an equilibrium point directly
via root-finding and by computing gradients via implicit differentiation. It is
a simple deep equilibrium model with nonlinear activations on weight matrices.
In this paper, we analyze the gradient dynamics of this simple deep equilibrium
model with non-convex objective functions for a general class of losses used in
regression and classification. Despite non-convexity, convergence to global
optimum at a linear rate is guaranteed without any assumption on the width of
the models, allowing the width to be smaller than the output dimension and the
number of data points. Moreover, we prove a relation between the gradient
dynamics of the simple deep equilibrium model and the dynamics of trust region
Newton method of a shallow model. This mathematically proven relation along
with our numerical observation suggests the importance of understanding
implicit bias and a possible open problem on the topic. Our proofs deal with
nonlinearity and weight tying, and differ from those in the related literature.
- Abstract(参考訳): 深い平衡線形モデルは、無限列の計算の平衡点を通じて暗黙的に定義される。
これは、ルートフィンディングによって直接平衡点を見つけ、暗黙の微分を通じて勾配を計算することによって無限列の明示的な計算を避ける。
重量行列上の非線形活性化を伴う単純な深い平衡モデルである。
本稿では,回帰と分類に用いられる一般損失のクラスに対して,非凸目的関数を持つこの単純な深層平衡モデルの勾配ダイナミクスを解析する。
非凸性にもかかわらず、線形速度で最適なグローバルへの収束は、モデルの幅を前提にすることなく保証され、幅は出力寸法とデータポイントの数よりも小さくなります。
さらに,単純な深層平衡モデルの勾配ダイナミクスと浅層モデルの信頼領域ニュートン法のダイナミクスとの関係を証明した。
この数学的に証明された関係と数値的な観測は、暗黙のバイアスを理解することの重要性と、そのトピックに関するオープンな問題の重要性を示唆している。
我々の証明は非線形性と重み付けを扱っており、関連する文献のものと異なる。
関連論文リスト
- Weak Correlations as the Underlying Principle for Linearization of
Gradient-Based Learning Systems [1.0878040851638]
本稿では,パラメータの動的構造を線形に表示する勾配降下に基づく学習アルゴリズムについて述べる。
この明らかな線型性は、仮説関数の第一階微分と高階微分の間の弱い相関によるものである。
線形性と弱相関の関係を爆発させることにより,勾配降下の訓練軌道中に観測された線形性から偏差を導出する。
論文 参考訳(メタデータ) (2024-01-08T16:44:23Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Gradient is All You Need? [0.0]
本稿では、コンセンサスに基づく勾配最適化(CBO)の解釈による学習アルゴリズムの理論的理解に関する新しい分析的視点を提供する。
本研究は,非局所景観関数の複雑さを軽減するため,CBOの本質的な能力を証明するものである。
論文 参考訳(メタデータ) (2023-06-16T11:30:55Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Dynamical chaos in nonlinear Schr\"odinger models with subquadratic
power nonlinearity [137.6408511310322]
ランダムポテンシャルと準4次パワー非線形性を持つ非線形シュリンガー格子のクラスを扱う。
拡散過程は亜拡散性であり, 微細構造が複雑であることを示す。
二次パワー非線形性の限界も議論され、非局在化境界をもたらすことが示されている。
論文 参考訳(メタデータ) (2023-01-20T16:45:36Z) - Global Convergence of Over-parameterized Deep Equilibrium Models [52.65330015267245]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。
無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。
本稿では,無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-27T08:00:13Z) - Gradient Descent Optimizes Infinite-Depth ReLU Implicit Networks with
Linear Widths [25.237054775800164]
本稿では非線形ReLU活性化暗黙ネットワークにおける勾配流と勾配勾配の収束について検討する。
GF と GD のどちらも,暗黙的ネットワークの幅$m$ が標本サイズでテキストリニアであれば,線形速度で大域最小値に収束することが証明される。
論文 参考訳(メタデータ) (2022-05-16T06:07:56Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。