論文の概要: The Implicit Bias for Adaptive Optimization Algorithms on Homogeneous
Neural Networks
- arxiv url: http://arxiv.org/abs/2012.06244v1
- Date: Fri, 11 Dec 2020 11:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 13:09:57.092817
- Title: The Implicit Bias for Adaptive Optimization Algorithms on Homogeneous
Neural Networks
- Title(参考訳): 均質ニューラルネットワークにおける適応最適化アルゴリズムのインプシットバイアス
- Authors: Bohan Wang, Qi Meng, Wei Chen
- Abstract要約: 同質ニューラルネットワークにおける適応最適化アルゴリズムの暗黙バイアスについて検討する。
非線形深部ニューラルネットワークにおける適応最適化の収束方向を研究する最初の研究である。
- 参考スコア(独自算出の注目度): 21.63353575405414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their overwhelming capacity to overfit, deep neural networks trained
by specific optimization algorithms tend to generalize relatively well to
unseen data. Recently, researchers explained it by investigating the implicit
bias of optimization algorithms. A remarkable progress is the work [18], which
proves gradient descent (GD) maximizes the margin of homogeneous deep neural
networks. Except the first-order optimization algorithms like GD, adaptive
algorithms such as AdaGrad, RMSProp and Adam are popular owing to its rapid
training process. Meanwhile, numerous works have provided empirical evidence
that adaptive methods may suffer from poor generalization performance. However,
theoretical explanation for the generalization of adaptive optimization
algorithms is still lacking. In this paper, we study the implicit bias of
adaptive optimization algorithms on homogeneous neural networks. In particular,
we study the convergent direction of parameters when they are optimizing the
logistic loss. We prove that the convergent direction of RMSProp is the same
with GD, while for AdaGrad, the convergent direction depends on the adaptive
conditioner. Technically, we provide a unified framework to analyze convergent
direction of adaptive optimization algorithms by constructing novel and
nontrivial adaptive gradient flow and surrogate margin. The theoretical
findings explain the superiority on generalization of exponential moving
average strategy that is adopted by RMSProp and Adam. To the best of knowledge,
it is the first work to study the convergent direction of adaptive
optimizations on non-linear deep neural networks
- Abstract(参考訳): 過剰に適合する能力は圧倒的だが、特定の最適化アルゴリズムによって訓練されたディープニューラルネットワークは、見当たらないデータに対して比較的よく一般化する傾向がある。
最近、研究者は最適化アルゴリズムの暗黙のバイアスについて研究している。
顕著な進歩は、勾配降下(GD)が均一な深層ニューラルネットワークのマージンを最大化することを示す研究[18]である。
GDのような一階最適化アルゴリズムを除いて、AdaGrad、RMSProp、Adamといった適応アルゴリズムは、その迅速なトレーニングプロセスのために人気がある。
一方、多くの作品が適応法が一般化性能の低下に苦しむという実証的な証拠を提供している。
しかし、適応最適化アルゴリズムの一般化に関する理論的説明はまだ欠けている。
本稿では,同次ニューラルネットワークにおける適応最適化アルゴリズムの暗黙バイアスについて検討する。
特に,ロジスティック損失を最適化する場合のパラメータの収束方向について検討する。
我々は RMSProp の収束方向が GD と同じであることを証明するが、AdaGrad の場合、収束方向は適応条件に依存する。
技術的には, 適応最適化アルゴリズムの収束方向を, 新規かつ非自明な適応勾配流とサーロゲートマージンを構築して解析するための統一的枠組みを提供する。
RMSPropとAdamが採用した指数移動平均戦略の一般化における優位性を説明する。
知る限りでは、非線形ディープニューラルネットワークにおける適応最適化の収束方向を研究する最初の研究である。
関連論文リスト
- Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。
これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - Faster Margin Maximization Rates for Generic and Adversarially Robust Optimization Methods [20.118513136686452]
一階最適化法は、未決定の訓練目標を最小化する際に、本質的に他よりも特定の解を優先する傾向がある。
本稿では,ミラー降下法と最急降下法について,最先端の暗黙バイアス率を示す。
私たちの加速速度は、このゲームフレームワークにおけるオンライン学習アルゴリズムの残念な部分を活用することによって導き出されます。
論文 参考訳(メタデータ) (2023-05-27T18:16:56Z) - Genetically Modified Wolf Optimization with Stochastic Gradient Descent
for Optimising Deep Neural Networks [0.0]
本研究の目的は、人口ベースメタヒューリスティックアルゴリズムを用いて、ニューラルネットワーク(NN)重み付けを最適化するための代替アプローチを分析することである。
Grey Wolf (GWO) と Genetic Modified Algorithms (GA) のハイブリッドをグラディエント・Descent (SGD) と組み合わせて検討した。
このアルゴリズムは、高次元性の問題にも対処しながら、エクスプロイトと探索の組み合わせを可能にする。
論文 参考訳(メタデータ) (2023-01-21T13:22:09Z) - How Does Adaptive Optimization Impact Local Neural Network Geometry? [32.32593743852949]
ニューラルネットワーク最適化の文脈では、この伝統的な視点は不十分である、と我々は主張する。
我々は、アダムのような適応的な手法が、より高速な収束を期待できる領域への軌道に偏っていることを示す。
論文 参考訳(メタデータ) (2022-11-04T04:05:57Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z) - Iterative Surrogate Model Optimization (ISMO): An active learning
algorithm for PDE constrained optimization with deep neural networks [14.380314061763508]
反復代理モデル最適化(ISMO)と呼ばれる新しい能動学習アルゴリズムを提案する。
このアルゴリズムはディープニューラルネットワークに基づいており、その重要な特徴は、ディープニューラルネットワークと基礎となる標準最適化アルゴリズムの間のフィードバックループを通じて、トレーニングデータの反復的な選択である。
論文 参考訳(メタデータ) (2020-08-13T07:31:07Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - Stochastic batch size for adaptive regularization in deep network
optimization [63.68104397173262]
ディープラーニングフレームワークにおける機械学習問題に適用可能な適応正規化を取り入れた一階最適化アルゴリズムを提案する。
一般的なベンチマークデータセットに適用した従来のネットワークモデルに基づく画像分類タスクを用いて,提案アルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2020-04-14T07:54:53Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。