論文の概要: Towards Scalable and Stable Parallelization of Nonlinear RNNs
- arxiv url: http://arxiv.org/abs/2407.19115v3
- Date: Wed, 15 Jan 2025 19:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 18:31:22.951149
- Title: Towards Scalable and Stable Parallelization of Nonlinear RNNs
- Title(参考訳): 非線形RNNのスケーラブルで安定な並列化に向けて
- Authors: Xavier Gonzalez, Andrew Warrington, Jimmy T. H. Smith, Scott W. Linderman,
- Abstract要約: そこで我々は, 非線形RNNを並列に評価するDEERという手法を開発した。
準ニュートン近似を適用し、それらをニュートンに可逆収束させ、メモリを少なくし、より高速であることを示す。
これらの革新は、より大規模でより安定な非線形RNNの並列評価を可能にする。
- 参考スコア(独自算出の注目度): 13.705742451466225
- License:
- Abstract: Transformers and linear state space models can be evaluated in parallel on modern hardware, but evaluating nonlinear RNNs appears to be an inherently sequential problem. Recently, however, Lim et al. '24 developed an approach called DEER, which evaluates nonlinear RNNs in parallel by posing the states as the solution to a fixed-point problem. They derived a parallel form of Newton's method to solve the fixed-point problem and achieved significant speedups over sequential evaluation. However, the computational complexity of DEER is cubic in the state size, and the algorithm can suffer from numerical instability. We address these limitations with two novel contributions. To reduce the computational complexity, we apply quasi-Newton approximations and show they converge comparably to Newton, use less memory, and are faster. To stabilize DEER, we leverage a connection between the Levenberg-Marquardt algorithm and Kalman smoothing, which we call ELK. This connection allows us to stabilize Newton's method while using efficient parallelized Kalman smoothing algorithms to retain performance. Through several experiments, we show that these innovations allow for parallel evaluation of nonlinear RNNs at larger scales and with greater stability.
- Abstract(参考訳): 変換器と線形状態空間モデルは、現代のハードウェア上で並列に評価できるが、非線形RNNを評価することは本質的にシーケンシャルな問題である。
しかし、最近、LimらによってDEERと呼ばれる手法が開発され、固定点問題に対する解として状態に反応することで非線形RNNを並列に評価する。
彼らは、固定点問題を解くためにニュートンの手法の並列形式を導出し、逐次評価よりもかなりのスピードアップを達成した。
しかし、DEERの計算複雑性は状態サイズの3乗であり、アルゴリズムは数値的な不安定さに悩まされる可能性がある。
これらの制限を2つの新しいコントリビューションで解決する。
計算複雑性を低減するため、準ニュートン近似を適用し、ニュートンに可逆収束し、メモリ使用量が少なく、より高速であることを示す。
DEERを安定化させるためには、Levenberg-MarquardtアルゴリズムとKalman smoothing(ELK)の接続を利用する。
この接続により、効率の良い並列化カルマン平滑化アルゴリズムを用いて性能を保ちながらニュートン法を安定させることができる。
いくつかの実験を通して、これらの革新により、より大規模でより安定な非線形RNNの並列評価が可能であることが示されている。
関連論文リスト
- Symmetric Rank-One Quasi-Newton Methods for Deep Learning Using Cubic Regularization [0.5120567378386615]
アダムやアダグラッドのような一階降下や他の一階変種は、ディープラーニングの分野で一般的に使われている。
しかし、これらの手法は曲率情報を活用しない。
準ニュートン法は、以前計算された低ヘッセン近似を再利用する。
論文 参考訳(メタデータ) (2025-02-17T20:20:11Z) - Incremental Quasi-Newton Methods with Faster Superlinear Convergence
Rates [50.36933471975506]
各成分関数が強く凸であり、リプシッツ連続勾配とヘシアンを持つ有限和最適化問題を考える。
最近提案されたインクリメンタル準ニュートン法は、BFGSの更新に基づいて、局所的な超線形収束率を達成する。
本稿では、対称ランク1更新をインクリメンタルフレームワークに組み込むことにより、より効率的な準ニュートン法を提案する。
論文 参考訳(メタデータ) (2024-02-04T05:54:51Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Smoothing ADMM for Sparse-Penalized Quantile Regression with Non-Convex
Penalties [8.294148737585543]
本稿では,非二次絶対および非平滑収束ペナルティの存在下での凹凸および切断された量子レグレッションについて検討する。
本稿では,スパース回帰に特化してSIADと呼ばれるペナルティ乗算器が増加する新しいループADMアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-04T21:48:51Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Contracting Neural-Newton Solver [0.0]
我々は、CoNNS(Contracting Neural-Newton Solver)と呼ばれる繰り返しNNシミュレーションツールを開発した。
本稿では、暗黙のルンゲ・クッタ積分器の中心にあるニュートン解法を、この固定点を求める反復写像としてモデル化する。
NNを通した連続したパスが、一意の定点に収束することが保証されていることを証明します。
論文 参考訳(メタデータ) (2021-06-04T15:14:12Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Hybrid Variance-Reduced SGD Algorithms For Nonconvex-Concave Minimax
Problems [26.24895953952318]
我々は,非ガンスミニマックス問題のクラスを解くアルゴリズムを開発した。
また、単一または2つのミニバッチ誘導体でも機能する。
論文 参考訳(メタデータ) (2020-06-27T03:05:18Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。