論文の概要: Breaking the Memory Wall: Exact Analytical Differentiation via Tiled Operator-Space Evolution
- arxiv url: http://arxiv.org/abs/2512.23068v1
- Date: Sun, 28 Dec 2025 20:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.349769
- Title: Breaking the Memory Wall: Exact Analytical Differentiation via Tiled Operator-Space Evolution
- Title(参考訳): 記憶壁を破る: タイド演算子空間の進化による解析的差異
- Authors: Shuhuan Wang, Yuzhen Xie, Jiayi Li, Yinliang Diao,
- Abstract要約: 位相勾配流(PGF)は、状態空間多様体で直接操作することで正確な解析微分を計算するフレームワークである。
提案手法は,最大VRAMの94%削減,スループットの23倍のO(1)メモリの複雑性を実現する。
我々の研究は1つのGPU上で染色体スケールの感度解析を可能にし、理論的な無限コンテキストモデルと実用的なハードウェアの限界のギャップを埋める。
- 参考スコア(独自算出の注目度): 3.551701030393209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selective State Space Models (SSMs) achieve linear-time inference, yet their gradient-based sensitivity analysis remains bottlenecked by O(L) memory scaling during backpropagation. This memory constraint precludes genomic-scale modeling (L > 10^5) on consumer-grade hardware. We introduce Phase Gradient Flow (PGF), a framework that computes exact analytical derivatives by operating directly in the state-space manifold, bypassing the need to materialize the intermediate computational graph. By reframing SSM dynamics as Tiled Operator-Space Evolution (TOSE), our method delivers O(1) memory complexity relative to sequence length, yielding a 94% reduction in peak VRAM and a 23x increase in throughput compared to standard Autograd. Unlike parallel prefix scans that exhibit numerical divergence in stiff ODE regimes, PGF ensures stability through invariant error scaling, maintaining near-machine precision across extreme sequences. We demonstrate the utility of PGF on an impulse-response benchmark with 128,000-step sequences - a scale where conventional Autograd encounters prohibitive memory overhead, often leading to out-of-memory (OOM) failures in multi-layered models. Our work enables chromosome-scale sensitivity analysis on a single GPU, bridging the gap between theoretical infinite-context models and practical hardware limitations.
- Abstract(参考訳): SSM(Selective State Space Models)は線形時間推論を実現するが、その勾配に基づく感度解析は、バックプロパゲーション中にO(L)メモリのスケーリングによってボトルネックとなる。
このメモリ制約は、コンシューマグレードハードウェア上のゲノムスケールモデリング(L > 10^5)を妨げる。
状態空間の多様体で直接操作することで正確な解析微分を計算し、中間計算グラフの実体化の必要性を回避し、位相勾配流(PGF)を導入する。
提案手法は,Ted Operator-Space Evolution (TOSE) としてSSMのダイナミックスを再定義することにより,シーケンス長に対してO(1)メモリの複雑さを低減し,最大VRAMの94%削減,スループットの23倍向上を実現した。
厳密なODE構造において数値的なばらつきを示す並列プレフィックススキャンとは異なり、PGFは不変のエラースケーリングによって安定性を確保し、極端なシーケンスにわたってほぼ機械的精度を維持する。
128,000ステップのシーケンスを持つインパルス応答ベンチマークでPGFの有用性を実証する。これは従来のAutogradがメモリオーバーヘッドを禁止し、しばしば多層モデルにおけるメモリ外障害(OOM)を引き起こすスケールである。
我々の研究は1つのGPU上で染色体スケールの感度解析を可能にし、理論的な無限コンテキストモデルと実用的なハードウェアの限界のギャップを埋める。
関連論文リスト
- Unifying Learning Dynamics and Generalization in Transformers Scaling Law [1.5229257192293202]
大規模言語モデル(LLM)開発の基盤であるスケーリング法則は,計算資源の増加に伴うモデル性能の向上を予測している。
この研究は、変圧器に基づく言語モデルの学習力学を常微分方程式(ODE)システムとして定式化する。
本分析では,データによる計算資源のスケールとして,一般化誤差と既約リスクの収束を特徴付ける。
論文 参考訳(メタデータ) (2025-12-26T17:20:09Z) - The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - More Optimal Fractional-Order Stochastic Gradient Descent for Non-Convex Optimization Problems [2.5971517743176915]
本稿では,FOSGDとFOSGDを統合した2FOSGD法を提案する。
感度と有効次元性を追跡することにより、2SEDFOSGDは指数を動的に変調し、スラグ振動と急収束を緩和する。
論文 参考訳(メタデータ) (2025-05-05T19:27:36Z) - Effective Dimension Aware Fractional-Order Stochastic Gradient Descent for Convex Optimization Problems [2.5971517743176915]
データ駆動方式で分数指数を適応する2SED分数次勾配Descent (2SEDFOSGD)を提案する。
理論的には、この手法は、na"ive fractional SGD"で観察されるスラグや不安定な振る舞いを伴わない分数記憶の利点を保っている。
論文 参考訳(メタデータ) (2025-03-17T22:57:37Z) - TensorGRaD: Tensor Gradient Robust Decomposition for Memory-Efficient Neural Operator Training [91.8932638236073]
textbfTensorGRaDは,重み付けに伴うメモリ問題に直接対処する新しい手法である。
SparseGRaD は総メモリ使用量を 50% 以上削減し,同時に精度も向上することを示した。
論文 参考訳(メタデータ) (2025-01-04T20:51:51Z) - Multi-Grid Tensorized Fourier Neural Operator for High-Resolution PDEs [93.82811501035569]
本稿では,メモリ要求を低減し,より一般化したデータ効率・並列化可能な演算子学習手法を提案する。
MG-TFNOは、実世界の実世界の現象の局所的構造と大域的構造を活用することで、大規模な分解能にスケールする。
乱流ナビエ・ストークス方程式において150倍以上の圧縮で誤差の半分以下を達成できる優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-29T20:18:52Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Memory-Efficient Differentiable Programming for Quantum Optimal Control
of Discrete Lattices [1.5012666537539614]
量子最適制御問題は通常、GRAPEのような勾配に基づくアルゴリズムによって解決される。
QOCは、メモリ要件が大きなモデルや長時間のスパンをシミュレートする障壁であることを明らかにした。
我々は、適切な再計算コストでメモリ要求を大幅に削減する、非標準微分可能プログラミングアプローチを採用している。
論文 参考訳(メタデータ) (2022-10-15T20:59:23Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。