論文の概要: Attention as an Adaptive Filter
- arxiv url: http://arxiv.org/abs/2509.04154v3
- Date: Tue, 14 Oct 2025 02:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 14:23:56.830822
- Title: Attention as an Adaptive Filter
- Title(参考訳): 適応フィルタとしての注意
- Authors: Peter Racioppo,
- Abstract要約: 本稿では,学習可能な動的モデルを注意重みの計算に直接組み込む新しい注意機構であるAdaptive Filter Attention (AFA)を紹介する。
連続時間線形時間不変系を仮定することにより、微分リアプノフ方程式の閉形式解を用いて、キーからクエリへのダイナミックスを通して不確かさを効率的に伝播させることができる。
注意の一般化は、この線形SDEの軌道をフィルタリングする極大解として自然に生じ、注意重みは、伝播されたクエリキー精度の頑健な残差に基づく再重み付けに対応する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Adaptive Filter Attention (AFA), a novel attention mechanism that incorporates a learnable dynamics model directly into the computation of attention weights. Rather than comparing queries and keys directly, we model the input sequence as discrete observations of a linear stochastic differential equation (SDE). By assuming a continuous-time linear time-invariant system with simultaneously-diagonalizable state matrices and noise covariances, we can make use of a closed-form solution of the differential Lyapunov equation to efficiently propagate uncertainties through the dynamics from keys to queries. A generalization of attention naturally arises as the maximum likelihood solution for filtering the trajectory of this linear SDE, with attention weights corresponding to robust residual-based reweightings of the propagated query-key precisions. We further constrain the system dynamics and noise in order to obtain a simplified variant with the same computational and memory complexity as standard attention. In the limit of zero decay and process noise, and using a small-angle approximation, we recover a complex-valued generalization of ordinary dot-product attention with rotary positional encodings.
- Abstract(参考訳): 本稿では,学習可能な動的モデルを注意重みの計算に直接組み込む新しい注意機構であるAdaptive Filter Attention (AFA)を紹介する。
クエリとキーを直接比較するのではなく、線形確率微分方程式(SDE)の離散的な観測として入力シーケンスをモデル化する。
同時対角化可能な状態行列とノイズ共分散を持つ連続時間線形時間不変系を仮定することにより、微分リャプノフ方程式の閉形式解を用いて、キーからクエリへのダイナミックスを通して不確かさを効率的に伝播させることができる。
注意の一般化は、この線形SDEの軌道をフィルタリングする最大極大解として自然に生じ、その注意重みは、伝播されたクエリキーの頑健な残差に基づく再重み付けに対応する。
さらに、計算量やメモリの複雑さが標準的注意力と同じで単純化された変種を得るために、システムの力学とノイズを制約する。
ゼロ崩壊とプロセスノイズの極限において、小角近似を用いて、回転位置符号化による通常の点積注意の複素数値一般化を復元する。
関連論文リスト
- Self-Supervised Coarsening of Unstructured Grid with Automatic Differentiation [55.88862563823878]
本研究では,微分可能物理の概念に基づいて,非構造格子を階層化するアルゴリズムを提案する。
多孔質媒質中のわずかに圧縮可能な流体流を制御した線形方程式と波動方程式の2つのPDE上でのアルゴリズムの性能を示す。
その結果,検討したシナリオでは,関心点におけるモデル変数のダイナミクスを保ちながら,格子点数を最大10倍に削減した。
論文 参考訳(メタデータ) (2025-07-24T11:02:13Z) - Solving nonconvex Hamilton--Jacobi--Isaacs equations with PINN-based policy iteration [1.3654846342364308]
本稿では,従来の動的プログラミングとニューラルネットワーク(PINN)を組み合わせて,非加入者ハミルトン・ヤコビ・イザック方程式を解くフレームワークを提案する。
この結果から,PINNを政策ポリシーに統合することは,高次元非加入者HJI方程式の解法として,実用的で理論的に確立された手法であることが示唆された。
論文 参考訳(メタデータ) (2025-07-21T10:06:53Z) - On the Trajectory Regularity of ODE-based Diffusion Sampling [79.17334230868693]
拡散に基づく生成モデルは微分方程式を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
論文 参考訳(メタデータ) (2024-05-18T15:59:41Z) - Joint State Estimation and Noise Identification Based on Variational
Optimization [8.536356569523127]
CVIAKFと呼ばれる共役計算変分推論に基づく新しい適応カルマンフィルタ法を提案する。
CVIAKFの有効性は、目標追尾のための合成および実世界のデータセットを通して検証される。
論文 参考訳(メタデータ) (2023-12-15T07:47:03Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Effective Hamiltonian approach to the exact dynamics of open system by complex discretization approximation for environment [0.0]
複素ガウス二次関数に基づく複素周波数空間への離散化近似法の一般化を提案する。
有効ハミルトニアンは非エルミート的であり、負の虚部を持つ複素エネルギーモードを証明できる。
論文 参考訳(メタデータ) (2023-03-12T05:34:29Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Stochastic Normalizing Flows [52.92110730286403]
微分方程式(SDE)を用いた最大推定と変分推論のための正規化フロー(VI)を導入する。
粗い経路の理論を用いて、基礎となるブラウン運動は潜在変数として扱われ、近似され、神経SDEの効率的な訓練を可能にする。
これらのSDEは、与えられたデータセットの基盤となる分布からサンプリングする効率的なチェーンを構築するために使用することができる。
論文 参考訳(メタデータ) (2020-02-21T20:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。