Fugu-MT 論文翻訳(概要): Gated KalmaNet: A Fading Memory Layer Through Test-Time Ridge Regression

論文の概要: Gated KalmaNet: A Fading Memory Layer Through Test-Time Ridge Regression

arxiv url: http://arxiv.org/abs/2511.21016v1
Date: Wed, 26 Nov 2025 03:26:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-27 18:37:58.94533
Title: Gated KalmaNet: A Fading Memory Layer Through Test-Time Ridge Regression
Title（参考訳）: Gated KalmaNet: テスト時間リッジ回帰によるフェイディングメモリレイヤ
Authors: Liangzu Peng, Aditya Chattopadhyay, Luca Zancato, Elvis Nunez, Wei Xia, Stefano Soatto,
Abstract要約: Gated KalmaNet(GKA)は、次のトークンを予測する際に、すべての過去を説明することによってギャップを低減するレイヤである。テスト時間におけるオンラインリッジ回帰問題を一定メモリと線形計算コストで解決する。ロングコンテキストでは、GKAは現実世界のRAGタスクとLongQAタスクを最大128kトークンまで拡張し、他の薄型メモリベースラインよりも10ドル%以上の相対的な改善を実現している。
参考スコア（独自算出の注目度）: 53.48692193399171
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As efficient alternatives to softmax Attention, linear state-space models (SSMs) achieve constant memory and linear compute, but maintain only a lossy, fading summary of the past, often leading to inferior performance in recall oriented tasks. We propose Gated KalmaNet (GKA), a layer that reduces this gap by accounting for the full past when predicting the next token, while maintaining SSM-style efficiency. GKA achieves this by solving an online ridge regression problem at test time, with constant memory and linear compute cost in the sequence length. Drawing inspiration from the Kalman Filter, we iteratively solve the online ridge regression problem. However, a critical insight is that standard Kalman filter equations are numerically unstable in low-precision environments (like bfloat16) and difficult to parallelize in modern hardware. We address both challenges through two key innovations: (1) an adaptive regularization strategy with input-dependent gating that controls the condition number of the ridge regression, ensuring numerical stability while balancing memory retention. And (2) the use of Chebyshev Iteration instead of other conventional iterative solvers, which we demonstrate to be more stable in low-precision settings. To further improve scalability, we develop a hardware-aware chunk-wise implementation of Chebyshev Iteration along with custom kernels for backpropagating through our adaptive regularization and gating mechanisms. Empirically, GKA shows strong language understanding capabilites on short-context tasks outperforming existing SSM layers (like Mamba2, GLA and Gated DeltaNet). On long-context, GKA excels at real-world RAG and LongQA tasks up to 128k tokens, achieving more than $10$% relative improvement over other fading memory baselines.
Abstract（参考訳）: ソフトマックス・アテンションの効率的な代替手段として、線形状態空間モデル(SSM)は、一定メモリと線形計算を達成するが、過去の失明した要約だけを維持し、しばしばリコール指向タスクでは性能が劣る。 Gated KalmaNet(GKA)は、SSMスタイルの効率を維持しつつ、次のトークンを予測する際に、全過去を考慮し、このギャップを小さくするレイヤである。 GKAは、一定メモリとシーケンス長の線形計算コストで、オンラインリッジ回帰問題をテスト時に解くことで、これを実現している。カルマンフィルタからインスピレーションを得て、オンラインリッジ回帰問題を反復的に解決する。しかしながら、標準的なカルマンフィルタ方程式は(bfloat16のような)低精度環境では数値的に不安定であり、現代のハードウェアでは並列化が困難である。 1)入力依存型ゲーティングによる適応正規化戦略により、リッジ回帰の条件数を制御し、メモリ保持のバランスを保ちながら数値安定性を確保する。 2) 従来の反復解法ではなくChebyshevイテレーションを用いることで, 低精度設定でより安定であることが示される。スケーラビリティをさらに向上するため、我々はChebyshev Iterationのハードウェア対応のチャンクワイド実装と、適応正規化とゲーティング機構によるバックプロパゲートのためのカスタムカーネルを開発した。経験的に、GKAは、既存のSSM層(Mamba2、GLA、Gated DeltaNetなど)を上回る短文タスクにおいて、強力な言語理解能力を示している。ロングコンテキストでは、GKAは現実世界のRAGタスクとLongQAタスクを最大128kトークンまで拡張し、他の薄型メモリベースラインよりも10ドル%以上の相対的な改善を実現している。

関連論文リスト

Kalman Linear Attention: Parallel Bayesian Filtering For Efficient Language Modelling and State Tracking [7.437238821092346]
Mambaやgate linear attention (GLA)のような状態空間言語モデルは、トランスフォーマーの効率的な代替手段を提供する。確率レンズを用いたシーケンスモデリングにより,これらの制約に対処する。本稿では,時間並列確率推定を行うニューラルネットワークモデリングプリミティブであるKLA(Kalman Linear Attention)層を紹介する。
論文参考訳（メタデータ） (2026-02-11T11:11:45Z)
Gated Differentiable Working Memory for Long-Context Language Modeling [80.27483324685434]
本稿では,Gdwm(Gated Differentiable Working Memory)を提案する。 ZeroSCROLLS と LongBench v2 の実験では、Gdwm は均一なベースラインよりも 4$times$ の勾配ステップで同等または優れたパフォーマンスを達成している。
論文参考訳（メタデータ） (2026-01-19T10:00:33Z)
Breaking the Memory Wall: Exact Analytical Differentiation via Tiled Operator-Space Evolution [3.551701030393209]
位相勾配流(PGF)は、状態空間多様体で直接操作することで正確な解析微分を計算するフレームワークである。提案手法は,最大VRAMの94%削減,スループットの23倍のO(1)メモリの複雑性を実現する。我々の研究は1つのGPU上で染色体スケールの感度解析を可能にし、理論的な無限コンテキストモデルと実用的なハードウェアの限界のギャップを埋める。
論文参考訳（メタデータ） (2025-12-28T20:27:58Z)
GatedFWA: Linear Flash Windowed Attention with Gated Associative Memory [7.180426235884756]
GatedFWAはメモリアンダーラインGated(アンダーラインFlash)アンダーラインWindowedアンダーラインAttentionメカニズムである。メモリ更新を安定させ、グラデーションフローを制御可能にする。言語モデリングベンチマークでは、GatedFWAは、無視できないオーバーヘッドで競合スループットを提供する。
論文参考訳（メタデータ） (2025-12-08T18:11:06Z)
Long-Context Modeling with Dynamic Hierarchical Sparse Attention for On-Device LLMs [17.499497967319332]
データ駆動型フレームワークであるDynamic Hierarchical Sparse Attention (DHSA)を導入する。 DHSAは高い注意力と精度を一致させ、プリフィル遅延を20-60%削減し、ピークメモリ使用量を35%削減した。 Needle-in-a-Haystack Test と LongBench を用いたGemma2 実験では,DHSA の精度は高いが,プリフィル遅延は20～60%,ピークメモリ使用量は35%削減された。
論文参考訳（メタデータ） (2025-10-28T16:34:18Z)
Logits Replay + MoClip: Stabilized, Low-Cost Post-Training with Minimal Forgetting [6.653834890554154]
Logits Replay + MoClipは,ロジット空間の監視を圧縮し,更新レベルでの最適化を安定化するフレームワークである。提案手法は,一般的なベンチマークでの忘れを軽減しつつ,コミュニケーション技術タスクのドメイン性能を向上する。
論文参考訳（メタデータ） (2025-10-10T08:55:32Z)
The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文参考訳（メタデータ） (2025-10-03T09:02:33Z)
On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention [53.22963042513293]
大規模言語モデル(LLM)は、自己アテンションを通じてグローバルトークンの依存関係をキャプチャするが、長い入力に対する計算とメモリコストに直面する。まず,二状態線形注意(Dual-state linear attention, A)を提案する。これは2つの隠れ状態を保持する設計であり,その1つは,リニアアテンションアーキテクチャの典型的な短距離バイアスを緩和し,リニアアテンションを追尾するものである。本稿では,DSLA層を段階的に置き換えるオンライン適応蒸留フレームワークであるDSLA-Serveを紹介する。
論文参考訳（メタデータ） (2025-06-11T01:25:06Z)
Forget Forgetting: Continual Learning in a World of Abundant Memory [55.64184779530581]
継続的な学習は伝統的に、模範記憶の最小化に重点を置いてきた。本稿では、より現実的な体制を探求することによって、このパラダイムに挑戦する。モデルが以前のタスクに偏り、新しいタスクを学ぶのに苦労するようになるにつれて、中心的な課題が安定性から可塑性へと変化していくことが分かっています。
論文参考訳（メタデータ） (2025-02-11T05:40:52Z)
Adaptive Probabilistic ODE Solvers Without Adaptive Memory Requirements [6.0735728088312175]
メモリ要求を固定した適応確率的解法を開発した。本手法に切り替えることにより,長期連続におけるメモリの問題が解消される。また、ジャスト・イン・タイムのコンパイルをアンロックすることで、桁違いのシミュレーションを高速化する。
論文参考訳（メタデータ） (2024-10-14T14:10:47Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Sketchy: Memory-efficient Adaptive Regularization with Frequent Directions [22.09320263962004]
ディープラーニング(DL)学習タスクにおけるKronecker-factored gradient covariance matrixのスペクトルは、小さなリード固有空間に集中している。本稿では,行列プレコンディショナを維持するためのメモリと計算要求を低減させる汎用的手法について述べる。 ShampooやAdamと競合する手法で、第2の瞬間を追跡するにはサブ線形メモリしか必要ありません。
論文参考訳（メタデータ） (2023-02-07T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。