論文の概要: Gated KalmaNet: A Fading Memory Layer Through Test-Time Ridge Regression
- arxiv url: http://arxiv.org/abs/2511.21016v1
- Date: Wed, 26 Nov 2025 03:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.94533
- Title: Gated KalmaNet: A Fading Memory Layer Through Test-Time Ridge Regression
- Title(参考訳): Gated KalmaNet: テスト時間リッジ回帰によるフェイディングメモリレイヤ
- Authors: Liangzu Peng, Aditya Chattopadhyay, Luca Zancato, Elvis Nunez, Wei Xia, Stefano Soatto,
- Abstract要約: Gated KalmaNet(GKA)は、次のトークンを予測する際に、すべての過去を説明することによってギャップを低減するレイヤである。
テスト時間におけるオンラインリッジ回帰問題を一定メモリと線形計算コストで解決する。
ロングコンテキストでは、GKAは現実世界のRAGタスクとLongQAタスクを最大128kトークンまで拡張し、他の薄型メモリベースラインよりも10ドル%以上の相対的な改善を実現している。
- 参考スコア(独自算出の注目度): 53.48692193399171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As efficient alternatives to softmax Attention, linear state-space models (SSMs) achieve constant memory and linear compute, but maintain only a lossy, fading summary of the past, often leading to inferior performance in recall oriented tasks. We propose Gated KalmaNet (GKA), a layer that reduces this gap by accounting for the full past when predicting the next token, while maintaining SSM-style efficiency. GKA achieves this by solving an online ridge regression problem at test time, with constant memory and linear compute cost in the sequence length. Drawing inspiration from the Kalman Filter, we iteratively solve the online ridge regression problem. However, a critical insight is that standard Kalman filter equations are numerically unstable in low-precision environments (like bfloat16) and difficult to parallelize in modern hardware. We address both challenges through two key innovations: (1) an adaptive regularization strategy with input-dependent gating that controls the condition number of the ridge regression, ensuring numerical stability while balancing memory retention. And (2) the use of Chebyshev Iteration instead of other conventional iterative solvers, which we demonstrate to be more stable in low-precision settings. To further improve scalability, we develop a hardware-aware chunk-wise implementation of Chebyshev Iteration along with custom kernels for backpropagating through our adaptive regularization and gating mechanisms. Empirically, GKA shows strong language understanding capabilites on short-context tasks outperforming existing SSM layers (like Mamba2, GLA and Gated DeltaNet). On long-context, GKA excels at real-world RAG and LongQA tasks up to 128k tokens, achieving more than $10$% relative improvement over other fading memory baselines.
- Abstract(参考訳): ソフトマックス・アテンションの効率的な代替手段として、線形状態空間モデル(SSM)は、一定メモリと線形計算を達成するが、過去の失明した要約だけを維持し、しばしばリコール指向タスクでは性能が劣る。
Gated KalmaNet(GKA)は、SSMスタイルの効率を維持しつつ、次のトークンを予測する際に、全過去を考慮し、このギャップを小さくするレイヤである。
GKAは、一定メモリとシーケンス長の線形計算コストで、オンラインリッジ回帰問題をテスト時に解くことで、これを実現している。
カルマンフィルタからインスピレーションを得て、オンラインリッジ回帰問題を反復的に解決する。
しかしながら、標準的なカルマンフィルタ方程式は(bfloat16のような)低精度環境では数値的に不安定であり、現代のハードウェアでは並列化が困難である。
1)入力依存型ゲーティングによる適応正規化戦略により、リッジ回帰の条件数を制御し、メモリ保持のバランスを保ちながら数値安定性を確保する。
2) 従来の反復解法ではなくChebyshevイテレーションを用いることで, 低精度設定でより安定であることが示される。
スケーラビリティをさらに向上するため、我々はChebyshev Iterationのハードウェア対応のチャンクワイド実装と、適応正規化とゲーティング機構によるバックプロパゲートのためのカスタムカーネルを開発した。
経験的に、GKAは、既存のSSM層(Mamba2、GLA、Gated DeltaNetなど)を上回る短文タスクにおいて、強力な言語理解能力を示している。
ロングコンテキストでは、GKAは現実世界のRAGタスクとLongQAタスクを最大128kトークンまで拡張し、他の薄型メモリベースラインよりも10ドル%以上の相対的な改善を実現している。
関連論文リスト
- Long-Context Modeling with Dynamic Hierarchical Sparse Attention for On-Device LLMs [17.499497967319332]
データ駆動型フレームワークであるDynamic Hierarchical Sparse Attention (DHSA)を導入する。
DHSAは高い注意力と精度を一致させ、プリフィル遅延を20-60%削減し、ピークメモリ使用量を35%削減した。
Needle-in-a-Haystack Test と LongBench を用いたGemma2 実験では,DHSA の精度は高いが,プリフィル遅延は20~60%,ピークメモリ使用量は35%削減された。
論文 参考訳(メタデータ) (2025-10-28T16:34:18Z) - Logits Replay + MoClip: Stabilized, Low-Cost Post-Training with Minimal Forgetting [6.653834890554154]
Logits Replay + MoClipは,ロジット空間の監視を圧縮し,更新レベルでの最適化を安定化するフレームワークである。
提案手法は,一般的なベンチマークでの忘れを軽減しつつ,コミュニケーション技術タスクのドメイン性能を向上する。
論文 参考訳(メタデータ) (2025-10-10T08:55:32Z) - On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention [53.22963042513293]
大規模言語モデル(LLM)は、自己アテンションを通じてグローバルトークンの依存関係をキャプチャするが、長い入力に対する計算とメモリコストに直面する。
まず,二状態線形注意(Dual-state linear attention, A)を提案する。これは2つの隠れ状態を保持する設計であり,その1つは,リニアアテンションアーキテクチャの典型的な短距離バイアスを緩和し,リニアアテンションを追尾するものである。
本稿では,DSLA層を段階的に置き換えるオンライン適応蒸留フレームワークであるDSLA-Serveを紹介する。
論文 参考訳(メタデータ) (2025-06-11T01:25:06Z) - Adaptive Probabilistic ODE Solvers Without Adaptive Memory Requirements [6.0735728088312175]
メモリ要求を固定した適応確率的解法を開発した。
本手法に切り替えることにより,長期連続におけるメモリの問題が解消される。
また、ジャスト・イン・タイムのコンパイルをアンロックすることで、桁違いのシミュレーションを高速化する。
論文 参考訳(メタデータ) (2024-10-14T14:10:47Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Sketchy: Memory-efficient Adaptive Regularization with Frequent
Directions [22.09320263962004]
ディープラーニング(DL)学習タスクにおけるKronecker-factored gradient covariance matrixのスペクトルは、小さなリード固有空間に集中している。
本稿では,行列プレコンディショナを維持するためのメモリと計算要求を低減させる汎用的手法について述べる。
ShampooやAdamと競合する手法で、第2の瞬間を追跡するにはサブ線形メモリしか必要ありません。
論文 参考訳(メタデータ) (2023-02-07T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。