論文の概要: SNLP: Layer-Parallel Inference via Structured Newton Corrections
- arxiv url: http://arxiv.org/abs/2605.17842v2
- Date: Wed, 27 May 2026 15:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.673295
- Title: SNLP: Layer-Parallel Inference via Structured Newton Corrections
- Title(参考訳): SNLP:構造ニュートン補正による層並列推論
- Authors: Ligong Han, Kai Xu, Hao Wang, Akash Srivastava,
- Abstract要約: 本研究では, 非線形残留方程式の解として, 層間の隠れ状態トレースを扱い, 層間依存性を緩和できるかどうかを考察した。
構造ニュートン層並列性(SNLP)は、ジャコビアン層をより安価なアーキテクチャによるサロゲートダイナミクスに置き換えるトレーニングと推論のフレームワークである。
- 参考スコア(独自算出の注目度): 22.126763421836966
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autoregressive language models execute Transformer layers sequentially, creating a latency bottleneck that is not removed by conventional tensor or pipeline parallelism. We study whether this layerwise dependency can be relaxed by treating the hidden-state trace across layers as the solution of a nonlinear residual equation and solving it with parallel Newton-style updates. While this view is principled, exact Newton corrections require expensive Jacobian-vector products and naive fixed-point iterations are unstable on trained Transformers. We introduce Structured Newton Layer Parallelism (SNLP), a training and inference framework that replaces exact layer Jacobians with cheap architecture-induced surrogate dynamics. In residual Transformers, this yields Identity Newton (IDN), where the correction reduces to a prefix-sum-like update; in mHC-style architectures, HC Newton (HCN) uses the model's residual mixing matrix. We also study SNLP-aware training, including pretraining regularization and direct SNLP-forward SFT. Experiments on Nanochat-scale Transformers show that SNLP exposes a practical speed-quality frontier: on 0.5B models, it reaches up to 2.58x wall-clock speedup, and a less aggressive configuration reaches 1.40x speedup without increasing PPL. The useful tradeoff comes from the biased finite-iteration computation induced by IDN/HCN rather than exact recovery of the sequential trace. We further show that SNLP-forward SFT can preserve downstream task accuracy, and that SNLP can serve as a drafter for self-speculative decoding while a sequential verifier preserves output correctness.
- Abstract(参考訳): 自動回帰言語モデルはTransformer層を順次実行し、従来のテンソルやパイプラインの並列性によって取り除かれない遅延ボトルネックを生成する。
非線形残留方程式の解法として層をまたいだ隠れ状態トレースを処理し, 並列なニュートン方式の更新で解くことにより, この層依存性を緩和できるかどうかを検討した。
この考え方は原則であるが、正確なニュートン補正には高価なジャコビアンベクター製品が必要であり、訓練されたトランスフォーマーでは単純な固定点反復が不安定である。
構造ニュートン層並列性(SNLP)は、ジャコビアン層をより安価なアーキテクチャによるサロゲートダイナミクスに置き換えるトレーニングと推論のフレームワークである。
残留変圧器ではIDN(Identity Newton)となり、補正はプレフィックスサムのような更新に還元され、mHCスタイルのアーキテクチャではHCニュートン(HCN)はモデルの残留混合行列を使用する。
また,SNLP-forward SFTの事前訓練を含むSNLP-aware Trainingについても検討した。
SNLPは0.5Bモデルでは、最大2.58倍のウォールクロックスピードアップに達し、PPLを増大させることなく、よりアグレッシブな構成で1.40倍のスピードアップに達する。
有用なトレードオフは、シーケンシャルトレースの正確な回復ではなく、IDN/HCNによって誘導されるバイアス付き有限イテレーション計算から生じる。
さらに、SNLP-forward SFTは、ダウンストリームタスクの精度を保ち、SNLPは、逐次検証器が出力の正確性を保ちながら、自己投機的デコーディングのドラフトアとして機能することを示す。
関連論文リスト
- The Recurrent Transformer: Greater Effective Depth and Efficient Decoding [48.9323408950142]
Recurrent Transformerは、各レイヤがそれぞれのアクティベーションから計算されたキーと値のペアに付随する、シンプルなアーキテクチャ変更である。
このアーキテクチャは, (i) 従来のトランスフォーマーと (ii) トークン・ツー・グレッシブ・リカレント更新の両方を軽度な仮定でエミュレートできることを示す。
論文 参考訳(メタデータ) (2026-04-23T02:12:58Z) - PRISM: Parallel Residual Iterative Sequence Model [52.26239951489612]
我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。
PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。
この定式化が Rank-$L$ の蓄積を達成することを証明し、更新多様体を単一ステップの Rank-$1$ ボトルネックを超えて構造的に拡張する。
論文 参考訳(メタデータ) (2026-02-11T12:39:41Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - AuON: A Linear-time Alternative to Semi-Orthogonal Momentum Updates [0.0]
運動量に基づく更新の半直交特性について検討し、スペクトルノルム信頼領域下での運動量更新を束縛する方法を開発した。
半直交行列を構成することなく強い性能を達成する線形時間であるAuON(正規化非線形スケーリングによる代替単位ノルム運動量更新)を提案する。
提案手法は, 双極子-コサインRMSスケーリング変換と正規化を組み合わせることで, ニュートン-シュルツ法と比較して, 有効性と計算効率の両立を実証する。
論文 参考訳(メタデータ) (2025-09-29T06:03:53Z) - MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - Towards Scalable and Stable Parallelization of Nonlinear RNNs [13.705742451466225]
そこで我々は, 非線形RNNを並列に評価するDEERという手法を開発した。
準ニュートン近似を適用し、それらをニュートンに可逆収束させ、メモリを少なくし、より高速であることを示す。
これらの革新は、より大規模でより安定な非線形RNNの並列評価を可能にする。
論文 参考訳(メタデータ) (2024-07-26T22:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。