論文の概要: Kalman Linear Attention: Parallel Bayesian Filtering For Efficient Language Modelling and State Tracking
- arxiv url: http://arxiv.org/abs/2602.10743v1
- Date: Wed, 11 Feb 2026 11:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.786665
- Title: Kalman Linear Attention: Parallel Bayesian Filtering For Efficient Language Modelling and State Tracking
- Title(参考訳): Kalman Linear Attention: 効率的な言語モデリングと状態追跡のための並列ベイズフィルタ
- Authors: Vaisakh Shaj, Cameron Barker, Aidan Scannell, Andras Szecsenyi, Elliot J. Crowley, Amos Storkey,
- Abstract要約: Mambaやgate linear attention (GLA)のような状態空間言語モデルは、トランスフォーマーの効率的な代替手段を提供する。
確率レンズを用いたシーケンスモデリングにより,これらの制約に対処する。
本稿では,時間並列確率推定を行うニューラルネットワークモデリングプリミティブであるKLA(Kalman Linear Attention)層を紹介する。
- 参考スコア(独自算出の注目度): 7.437238821092346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-space language models such as Mamba and gated linear attention (GLA) offer efficient alternatives to transformers due to their linear complexity and parallel training, but often lack the expressivity and robust state-tracking needed for complex reasoning. We address these limitations by reframing sequence modelling through a probabilistic lens, using Bayesian filters as a core primitive. While classical filters such as Kalman filters provide principled state estimation and uncertainty tracking, they are typically viewed as inherently sequential. We show that reparameterising the Kalman filter in information form enables its updates to be computed via an associative scan, allowing efficient parallel training. Building on this insight, we introduce the Kalman Linear Attention (KLA) layer, a neural sequence-modelling primitive that performs time-parallel probabilistic inference while maintaining explicit belief-state uncertainty. KLA offers strictly more expressive nonlinear updates and gating than GLA variants while retaining their computational advantages. On language modelling tasks, KLA matches or outperforms modern SSMs and GLAs across representative discrete token-manipulation and state-tracking benchmarks.
- Abstract(参考訳): Mamba や gate linear attention (GLA) のような状態空間言語モデルは、線形複雑性と並列トレーニングのためにトランスフォーマーの効率的な代替手段を提供するが、複雑な推論に必要な表現性や堅牢な状態追跡は欠如していることが多い。
我々はベイジアンフィルタをコアプリミティブとして、確率レンズを通してシーケンスをモデル化することでこれらの制限に対処する。
カルマンフィルタのような古典的なフィルタは、原理化された状態推定と不確実性追跡を提供するが、典型的には本質的にシーケンシャルと見なされる。
カルマンフィルタを情報形式に再パラメータ化することで、その更新を連想スキャンで計算し、効率的な並列トレーニングを可能にすることを示す。
この知見に基づいて、明確な信念と状態の不確実性を維持しつつ、時間並列確率的推論を実行するニューラルネットワークモデリングプリミティブであるKLA(Kalman Linear Attention)層を導入する。
KLAはGLAよりも厳密に表現力のある非線形更新とゲーティングを提供し、計算上の優位性を維持している。
言語モデリングタスクでは、KLAは、個々のトークン操作と状態追跡のベンチマークで、現代のSSMとGLAにマッチするか、より優れています。
関連論文リスト
- Dissecting Linear Recurrent Models: How Different Gating Strategies Drive Selectivity and Generalization [5.057995083193427]
線形リカレントニューラルネットワークは、トランスフォーマーのソフトマックスアテンションメカニズムの効率的な代替手段として登場した。
既存のベンチマークタスクは、大きな違いを明らかにするには単純すぎるか、実験のために過度にリソースを消費する。
本稿では,SelectivBenchを紹介した。SelectivBenchは軽量でカスタマイズ可能な,シーケンスモデルを体系的に評価するためのベンチマークタスクである。
論文 参考訳(メタデータ) (2026-01-18T21:49:21Z) - Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文 参考訳(メタデータ) (2025-10-31T07:54:37Z) - Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - Transformers as Implicit State Estimators: In-Context Learning in Dynamical Systems [18.634960596074027]
変換器は隠れた状態を暗黙的に推論して、幅広い力学系の出力を予測することができることを示す。
インコンテキスト学習は動的システムにおける出力予測に柔軟で非パラメトリックな代替手段を提供することを示している。
論文 参考訳(メタデータ) (2024-10-21T22:18:10Z) - Uncertainty Representations in State-Space Layers for Deep Reinforcement Learning under Partial Observability [59.758009422067]
線形状態空間モデルにおいて閉形式ガウス推論を行う独立なカルマンフィルタ層を提案する。
効率的な線形リカレント層と同様に、Kalmanフィルタ層は並列スキャンを使用してシーケンシャルデータを処理している。
実験により、不確実性推論が意思決定の鍵となる問題においてカルマンフィルタ層が優れており、他のステートフルモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-25T11:22:29Z) - Kalman Filter for Online Classification of Non-Stationary Data [101.26838049872651]
オンライン連続学習(OCL)では、学習システムはデータのストリームを受け取り、予測とトレーニングの手順を順次実行する。
本稿では,線形予測量に対するニューラル表現と状態空間モデルを用いた確率ベイズオンライン学習モデルを提案する。
多クラス分類の実験では、モデルの予測能力と非定常性を捉える柔軟性を示す。
論文 参考訳(メタデータ) (2023-06-14T11:41:42Z) - Tensor Network Kalman Filtering for Large-Scale LS-SVMs [17.36231167296782]
最小二乗支援ベクトルマシンは非線形回帰と分類に使用される。
テンソルネットワークとカルマンフィルタに基づくフレームワークは、要求されるメモリと計算の複雑さを軽減する。
その結果,提案手法は高い性能を達成でき,代替手法が計算能力に欠ける場合には特に有用であることがわかった。
論文 参考訳(メタデータ) (2021-10-26T08:54:03Z) - KalmanNet: Neural Network Aided Kalman Filtering for Partially Known
Dynamics [84.18625250574853]
KalmanNetは、データから学習し、非線形力学の下でKalmanフィルタを実行するリアルタイム状態推定器である。
我々は、KalmanNetが非線形性とモデルミスマッチを克服し、古典的なフィルタリング手法より優れていることを数値的に示す。
論文 参考訳(メタデータ) (2021-07-21T12:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。