Fugu-MT 論文翻訳(概要): Towards Scalable and Stable Parallelization of Nonlinear RNNs

論文の概要: Towards Scalable and Stable Parallelization of Nonlinear RNNs

arxiv url: http://arxiv.org/abs/2407.19115v2
Date: Fri, 08 Nov 2024 17:20:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.589327
Title: Towards Scalable and Stable Parallelization of Nonlinear RNNs
Title（参考訳）: 非線形RNNのスケーラブルで安定な並列化に向けて
Authors: Xavier Gonzalez, Andrew Warrington, Jimmy T. H. Smith, Scott W. Linderman,
Abstract要約: 我々は,非線形RNNの並列化評価に取り組み,ニュートン法で解いた固定点問題としてこれを表現した。これらの手法は立方体計算の複雑さと数値不安定性を継承する。準ニュートン近似を適用し、それらが収束し、メモリを少なくし、フルニュートンと比較して高速であることを示す。
参考スコア（独自算出の注目度）: 13.705742451466225
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conventional nonlinear RNNs are not naturally parallelizable across the sequence length, unlike transformers and linear RNNs. Lim et. al. (2024) therefore tackle parallelized evaluation of nonlinear RNNs, posing it as a fixed point problem solved with Newton's method. By deriving and applying a parallelized form of Newton's method, they achieve large speedups over sequential evaluation. However, their approach inherits cubic computational complexity and numerical instability. We tackle these weaknesses. To reduce the computational complexity, we apply quasi-Newton approximations and show they converge comparably, use less memory, and are faster, compared to full-Newton. To stabilize Newton's method, we leverage a connection between Newton's method damped with trust regions and Kalman smoothing. This connection allows us to stabilize the iteration, per the trust region, and use efficient parallelized Kalman algorithms to retain performance. We compare these methods empirically and highlight use cases where each algorithm excels.
Abstract（参考訳）: 従来の非線形RNNは、変換器や線形RNNとは異なり、シーケンス長を自然に並列化できるわけではない。したがって、Lim et al (2024) は非線形RNNの並列化評価に取り組み、ニュートン法で解いた固定点問題として振舞う。ニュートンの手法の並列化形式を導出して適用することにより、逐次評価よりも大きなスピードアップを実現する。しかし、それらの手法は立方体計算の複雑さと数値不安定性を継承する。これらの弱点に対処する。計算複雑性を低減するため、準ニュートン近似を適用し、コンバーチブルに収束し、メモリを少なくし、フルニュートンと比較して高速であることを示す。ニュートン法を安定化させるために、信頼領域に減衰したニュートン法とカルマン平滑化の接続を利用する。この接続により、信頼領域に従ってイテレーションを安定させ、効率的な並列化カルマンアルゴリズムを使用してパフォーマンスを維持することができる。これらの手法を実証的に比較し,各アルゴリズムが優れているユースケースを強調した。

関連論文リスト

A Truncated Newton Method for Optimal Transport [13.848861021326755]
本稿では, エントロピック規則化最適輸送(OT)解法のための特殊トランケートニュートンアルゴリズムを提案する。提案アルゴリズムは実行時性能が極めて良好であり,既存の多くの選択肢よりも高精度な順序を達成できる。アルゴリズムのスケーラビリティは、非常に大きなOT問題に対して、約106$の$n近似で示され、エントロピー正則化の弱さの下で解決される。
論文参考訳（メタデータ） (2025-04-02T19:00:24Z)
Symmetric Rank-One Quasi-Newton Methods for Deep Learning Using Cubic Regularization [0.5120567378386615]
アダムやアダグラッドのような一階降下や他の一階変種は、ディープラーニングの分野で一般的に使われている。しかし、これらの手法は曲率情報を活用しない。準ニュートン法は、以前計算された低ヘッセン近似を再利用する。
論文参考訳（メタデータ） (2025-02-17T20:20:11Z)
Online Learning Guided Quasi-Newton Methods with Global Non-Asymptotic Convergence [20.766358513158206]
双対性ギャップの観点から、大域収束率を$O(min1/k,sqrtd/k1.25)$とする。これらの結果は、外勾配法よりも準ニュートン法の証明可能な利点を示す最初の大域収束結果である。
論文参考訳（メタデータ） (2024-10-03T16:08:16Z)
A fast neural hybrid Newton solver adapted to implicit methods for nonlinear dynamics [6.642649934130245]
本稿では,厳密な時間進化非線形方程式に対する非線形時間ステップシステムのこの解を高速化するための,ニュートン法に基づく新しい演算子学習法を提案する。ニュートン法における量的改善率を示し、教師なし学習戦略の一般化誤差の上限を解析する。
論文参考訳（メタデータ） (2024-07-04T14:02:10Z)
Incremental Quasi-Newton Methods with Faster Superlinear Convergence Rates [50.36933471975506]
各成分関数が強く凸であり、リプシッツ連続勾配とヘシアンを持つ有限和最適化問題を考える。最近提案されたインクリメンタル準ニュートン法は、BFGSの更新に基づいて、局所的な超線形収束率を達成する。本稿では、対称ランク1更新をインクリメンタルフレームワークに組み込むことにより、より効率的な準ニュートン法を提案する。
論文参考訳（メタデータ） (2024-02-04T05:54:51Z)
Stochastic Optimization for Non-convex Problem with Inexact Hessian Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。 TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文参考訳（メタデータ） (2023-10-18T10:29:58Z)
Smoothing ADMM for Sparse-Penalized Quantile Regression with Non-Convex Penalties [8.294148737585543]
本稿では,非二次絶対および非平滑収束ペナルティの存在下での凹凸および切断された量子レグレッションについて検討する。本稿では,スパース回帰に特化してSIADと呼ばれるペナルティ乗算器が増加する新しいループADMアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-04T21:48:51Z)
Constrained Optimization via Exact Augmented Lagrangian and Randomized Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文参考訳（メタデータ） (2023-05-28T06:33:37Z)
Second-order optimization with lazy Hessians [55.51077907483634]
一般の非線形最適化問題を解くためにニュートンの遅延ヘッセン更新を解析する。我々は、メソッドの各ステップで新しい勾配を計算しながら、これまで見られたヘッセン反復を再利用する。
論文参考訳（メタデータ） (2022-12-01T18:58:26Z)
Hessian Averaging in Stochastic Newton Methods Achieves Superlinear Convergence [69.65563161962245]
ニュートン法を用いて,滑らかで強凸な目的関数を考える。最適段階において局所収束に遷移する普遍重み付き平均化スキームが存在することを示す。
論文参考訳（メタデータ） (2022-04-20T07:14:21Z)
Newton methods based convolution neural networks using parallel processing [3.9220281834178463]
畳み込みニューラルネットワークの訓練は高次元かつ非パラメトリック最適化問題である。畳み込みニューラルネットワークのニュートン法は、サブサンプルのヘッセンニュートン法を用いてこれを扱う。ミニバッチ計算ではシリアル処理の代わりに並列処理を用いてきた。
論文参考訳（メタデータ） (2021-12-02T16:42:27Z)
Newton-LESS: Sparsification without Trade-offs for the Sketched Newton Update [88.73437209862891]
2階最適化において、潜在的なボトルネックは繰り返しごとに最適化関数のヘシアン行列を計算することである。本稿では,ガウススケッチ行列を劇的に分散させることにより,スケッチの計算コストを大幅に削減できることを示す。ニュートン=ルネッサはガウス埋め込みとほぼ同じ問題に依存しない局所収束率を享受していることを証明した。
論文参考訳（メタデータ） (2021-07-15T17:33:05Z)
Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-07T14:19:07Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
Hybrid Variance-Reduced SGD Algorithms For Nonconvex-Concave Minimax Problems [26.24895953952318]
我々は,非ガンスミニマックス問題のクラスを解くアルゴリズムを開発した。また、単一または2つのミニバッチ誘導体でも機能する。
論文参考訳（メタデータ） (2020-06-27T03:05:18Z)
Accelerating Feedforward Computation via Parallel Nonlinear Equation Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文参考訳（メタデータ） (2020-02-10T10:11:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。