論文の概要: Tensor Programs IVb: Adaptive Optimization in the Infinite-Width Limit
- arxiv url: http://arxiv.org/abs/2308.01814v2
- Date: Mon, 7 Aug 2023 04:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 10:44:13.752456
- Title: Tensor Programs IVb: Adaptive Optimization in the Infinite-Width Limit
- Title(参考訳): テンソルプログラムIVb:無限幅極限における適応最適化
- Authors: Greg Yang, Etai Littwin
- Abstract要約: 我々は、Adamのような適応型カーネルによって訓練された広いニューラルネットワークで、新しい現象が何が起こるかを示す。
基礎的なアーキテクチャに対して,対応する "神経的接点" と "最大更新" の制限を導出します。
- 参考スコア(独自算出の注目度): 31.035050549723213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Going beyond stochastic gradient descent (SGD), what new phenomena emerge in
wide neural networks trained by adaptive optimizers like Adam? Here we show:
The same dichotomy between feature learning and kernel behaviors (as in SGD)
holds for general optimizers as well, including Adam -- albeit with a nonlinear
notion of "kernel." We derive the corresponding "neural tangent" and "maximal
update" limits for any architecture. Two foundational advances underlie the
above results: 1) A new Tensor Program language, NEXORT, that can express how
adaptive optimizers process gradients into updates. 2) The introduction of
bra-ket notation to drastically simplify expressions and calculations in Tensor
Programs. This work summarizes and generalizes all previous results in the
Tensor Programs series of papers.
- Abstract(参考訳): 確率勾配降下(SGD)を超えて、Adamのような適応オプティマイザによってトレーニングされた広いニューラルネットワークに新しい現象が現れるのか?
sgdのように)機能学習と(sgdのように)カーネルの振る舞いの2分法は同じで、adam氏を含む一般的なオプティマイザも保持しています。
我々は,任意のアーキテクチャに対して,対応する "神経的接点" と "最大更新" の制限を導出する。
2つの基礎的な進歩により、上記の結果が得られた。
1)新しいTensor Program言語であるNEXORTは、最適化言語が更新への勾配をいかに適応的に処理するかを表現することができる。
2)テンソルプログラムにおける表現と計算を大幅に単純化するブラケット表記の導入。
この研究は、Tensor Programsシリーズの論文で過去の結果をまとめ、一般化している。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。