論文の概要: Precision Tracked Transformer via Kalman Filtering, Kriging and Process Noise
- arxiv url: http://arxiv.org/abs/2605.18832v1
- Date: Tue, 12 May 2026 22:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.36657
- Title: Precision Tracked Transformer via Kalman Filtering, Kriging and Process Noise
- Title(参考訳): カルマンフィルタ, リグ, プロセスノイズによる高精度追従変圧器
- Authors: Bo Long, Deepak Agarwal, Jelena Markovic-Voronov, Yi Wang, Liuqing Li,
- Abstract要約: Transformerは現代のAIの基礎的なビルディングブロックだが、不確実性の原則的扱いは提供していない
EmphBayesian Filtering Transformer (BFT) の例を示す。
BFTは任意のトランスフォーマー層を無視可能なオーバーヘッドで置き換える。
- 参考スコア(独自算出の注目度): 11.579218102536762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer is the foundational building block of modern AI, yet offers no principled handling of \emph{uncertainty}, which is prevalent in real applications: cold-start tokens with sparse histories in sequential recommendation, heterogeneous signal quality in language models, and attention sinks induced by unconstrained softmax. Every token is treated with uniform confidence. We show this uniformity is a degenerate case of our \emph{Bayesian Filtering Transformer} (BFT): attention becomes precision-weighted kriging, the residual connection becomes a Kalman update with adaptive gain, and the FFN becomes a dynamics model propagating precision via a Jacobian--plus--process-noise rule. Observation precision comes from a parameter-free Restricted Maximum Likelihood (REML) estimator with a conjugate Bayesian prior. BFT replaces any Transformer layer with negligible overhead. On sequential recommendation, BFT applied to three major architectures yields significant gains on six benchmarks, with the largest improvements on cold-start users and rare items where uncertainty is highest. On supervised fine-tuning of large language models with noisy data, BFT improves robustness in two regimes: noisy supervision (token-label corruption in question answering) and noisy context (retrieval-augmented QA with real RAG distractors). A single principled modification -- restoring precision -- unlocks substantial headroom across both classical sequence-modeling and modern LLM regimes.
- Abstract(参考訳): Transformerは現代のAIの基本的なビルディングブロックだが、実際のアプリケーションで広く使われている‘emph{uncertainty}の原則的なハンドリングは提供していない。
全てのトークンは均一な信頼で扱われる。
この一様性は、我々の 'emph{Bayesian Filtering Transformer} (BFT) の縮退するケースであり、注意は精度重み付けされ、残余接続は適応利得付きカルマン更新となり、FFNはジャコビアン+プロセス-ノイズ則を介して精度を伝播するダイナミックスモデルとなる。
観測精度は、共役ベイズ前駆体を持つパラメータフリーのRestricted Maximum Likelihood (REML)推定器から得られる。
BFTは任意のトランスフォーマー層を無視可能なオーバーヘッドで置き換える。
シーケンシャルなレコメンデーションでは、BFTが3つの主要なアーキテクチャに適用すると、6つのベンチマークで大幅に向上する。
雑音データを用いた大規模言語モデルの教師付き微調整において、BFTは、ノイズ監視(質問応答におけるToken-labelの破損)とノイズコンテキスト(実RAGインタプリタを用いた検索強化QA)の2つの体制における堅牢性を改善する。
単一の原則的な修正 -- 精度の回復 -- は、古典的なシーケンスモデリングと近代的なLLM体制の両方で、実質的なヘッドルームを開放する。
関連論文リスト
- Normalized Architectures are Natively 4-Bit [49.13186675123547]
重みと隠れ表現を単位超球面に制限するアーキテクチャであるnGPTは、本質的に低精度算術よりも堅牢である。
本手法は,最大3B/30Bパラメータの1.2B密度モデルとハイブリッド(Mamba-Transformer)MoEモデルの両方で検証する。
論文 参考訳(メタデータ) (2026-05-07T11:54:07Z) - Architecture-agnostic Lipschitz-constant Bayesian header and its application to resolve semantically proximal classification errors with vision transformers [0.0]
この研究は、アーキテクチャに依存しないリプシッツ・コンスタント・ベイジアンヘッダを示し、視覚変換器のような特徴抽出器に統合することができる。
また,不確実性と不確かさを誤分類率で捉えるための新しい指標と,適応型算術・平均融合方式を提案する。
モンテカルロサンプリングにより計算コストは上昇するが、事前に訓練されたバックボーンとのプラグ・アンド・プレイの互換性を提供する。
論文 参考訳(メタデータ) (2026-05-07T09:18:06Z) - Robust Unscented Kalman Filtering via Recurrent Meta-Adaptation of Sigma-Point Weights [0.0]
メタ適応UKF(英: Meta-Adaptive UKF、MA-UKF)は、超パラメータ最適化問題としてシグマ点重みを再構成するフレームワークである。
即時補正に依存する標準適応フィルタとは異なり、我々の手法は測定イノベーションの歴史をコンパクトな潜伏埋め込みに圧縮するためにリカレントコンテキストを用いる。
機動目標に関する数値ベンチマークは、MA-UKFが標準ベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-03-04T18:27:59Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - SpanNorm: Reconciling Training Stability and Performance in Deep Transformers [55.100133502295996]
両パラダイムの強度を統合することでジレンマを解消する新しい手法であるSpanNormを提案する。
我々は、SpanNormと原則付きスケーリング戦略を組み合わせることで、ネットワーク全体にわたって有界信号のばらつきを維持できることを理論的に示す。
経験的に、SpanNormは、密集および混成実験(Mixture-of-Experts、MoE)のシナリオにおいて、標準正規化スキームを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-30T05:21:57Z) - ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。
ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文 参考訳(メタデータ) (2026-01-29T18:35:01Z) - Unifying Sign and Magnitude for Optimizing Deep Vision Networks via ThermoLion [0.0]
現在のパラダイムは、情報チャネルドリフトパラメータに静的な妥協を課している。
我々は「低次元」探索モデルと「低次元」動的アライメントフレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-01T17:04:17Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Bridging the Gap Between Adversarial Robustness and Optimization Bias [28.56135898767349]
アドリアールの堅牢性はディープラーニングのオープンな課題であり、ほとんどの場合、敵対的なトレーニングを使用して対処されます。
トレードオフなしに、完全標準精度とある程度の堅牢性を両立させることが可能であることを示す。
特に、線形畳み込みモデルのロバスト性を特徴付け、フーリエ=$ell_infty$ノルムの制約を受ける攻撃に抵抗することを示す。
論文 参考訳(メタデータ) (2021-02-17T16:58:04Z) - Consistency Regularization for Certified Robustness of Smoothed
Classifiers [89.72878906950208]
最近のランダムな平滑化技術は、最悪の$ell$-robustnessを平均ケースのロバストネスに変換することができることを示している。
その結果,スムーズな分類器の精度と信頼性の高いロバスト性とのトレードオフは,ノイズに対する予測一貫性の規則化によって大きく制御できることが判明した。
論文 参考訳(メタデータ) (2020-06-07T06:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。