論文の概要: Frank-Wolfe optimization for deep networks
- arxiv url: http://arxiv.org/abs/2006.03960v1
- Date: Sat, 6 Jun 2020 20:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 21:15:58.849132
- Title: Frank-Wolfe optimization for deep networks
- Title(参考訳): ディープネットワークのためのフランク・ウルフ最適化
- Authors: Jakob Stigenberg
- Abstract要約: フランク=ウルフ最適化は、勾配降下と比較して、小さなディープネットワークに適用される。
最適化は収束するが、緩やかに、勾配降下の速度に近づかない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks is today one of the most popular choices in
classification, regression and function approximation. However, the training of
such deep networks is far from trivial as there are often millions of
parameters to tune. Typically, one use some optimization method that hopefully
converges towards some minimum. The most popular and successful methods are
based on gradient descent. In this paper, another optimization method,
Frank-Wolfe optimization, is applied to a small deep network and compared to
gradient descent. Although the optimization does converge, it does so slowly
and not close to the speed of gradient descent. Further, in a stochastic
setting, the optimization becomes very unstable and does not seem to converge
unless one uses a line search approach.
- Abstract(参考訳): 現在、ディープニューラルネットワークは分類、回帰、関数近似において最も一般的な選択肢の1つである。
しかし、このような深層ネットワークのトレーニングは、調整すべきパラメータが何百万もあるため、決して簡単ではない。
典型的には、ある最小限に収束する最適化法を用いる。
最も人気があり成功した方法は勾配降下に基づいている。
本稿では,frank-wolfe最適化という別の最適化手法を,小さな深層ネットワークに適用し,勾配降下と比較する。
最適化は収束するが、緩やかに、勾配降下の速度に近づかない。
さらに、確率的な設定では、最適化は非常に不安定になり、直線探索アプローチを使わなければ収束しないように見える。
関連論文リスト
- How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Optimization using Parallel Gradient Evaluations on Multiple Parameters [51.64614793990665]
本稿では,複数のパラメータからの勾配を勾配降下の各ステップで利用することができる凸最適化の一階法を提案する。
本手法では,複数のパラメータからの勾配を用いて,これらのパラメータを最適方向に更新する。
論文 参考訳(メタデータ) (2023-02-06T23:39:13Z) - How Does Adaptive Optimization Impact Local Neural Network Geometry? [32.32593743852949]
ニューラルネットワーク最適化の文脈では、この伝統的な視点は不十分である、と我々は主張する。
我々は、アダムのような適応的な手法が、より高速な収束を期待できる領域への軌道に偏っていることを示す。
論文 参考訳(メタデータ) (2022-11-04T04:05:57Z) - Gradient Descent, Stochastic Optimization, and Other Tales [8.034728173797953]
このチュートリアルは、勾配降下法と最適化法の形式的側面と非公式な側面の両方に対処することを避けない。
勾配降下は最適化を行う最も一般的なアルゴリズムの1つであり、機械学習タスクを最適化する最も一般的な方法である。
ディープニューラルネットワークでは、計算資源を節約し、サドルポイントから逃れるために、1つのサンプルまたはサンプルのバッチが続く勾配が使用される。
論文 参考訳(メタデータ) (2022-05-02T12:06:53Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z) - Boosting Frank-Wolfe by Chasing Gradients [26.042029798821375]
本稿では,降下方向をサブルーチンによる負勾配に整合させることにより,Frank-Wolfeアルゴリズムの高速化を提案する。
我々は、一連の計算実験において、反復時間とCPU時間の両方において、その競争上の優位性を実証する。
論文 参考訳(メタデータ) (2020-03-13T16:29:02Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。