論文の概要: Rethinking Selectivity in State Space Models: A Minimal Predictive Sufficiency Approach
- arxiv url: http://arxiv.org/abs/2508.03158v1
- Date: Tue, 05 Aug 2025 07:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.828771
- Title: Rethinking Selectivity in State Space Models: A Minimal Predictive Sufficiency Approach
- Title(参考訳): 状態空間モデルにおける選択性の再考:最小限の予測精度アプローチ
- Authors: Yiyi Wang, Jian'an Zhang, Hongyi Duan, Haoyang Liu, Qingyang Li,
- Abstract要約: 状態空間モデル(SSM)はシーケンスモデリングの主要なアーキテクチャとして登場し、トランスフォーマーの優位性に挑戦している。
本稿では, 未来を予測する上で, 理想的な隠れ状態は過去において最小限の統計量でなければならない, という新しい情報理論的基準である予測能力の原理を紹介する。
目的関数を最適化することで選択的なメカニズムを導出する新しいフレームワークであるMPS-SSM(Minimmal Predictive Sufficiency State Space Model)を提案する。
- 参考スコア(独自算出の注目度): 5.586596833025015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State Space Models (SSMs), particularly recent selective variants like Mamba, have emerged as a leading architecture for sequence modeling, challenging the dominance of Transformers. However, the success of these state-of-the-art models largely relies on heuristically designed selective mechanisms, which lack a rigorous first-principle derivation. This theoretical gap raises questions about their optimality and robustness against spurious correlations. To address this, we introduce the Principle of Predictive Sufficiency, a novel information-theoretic criterion stipulating that an ideal hidden state should be a minimal sufficient statistic of the past for predicting the future. Based on this principle, we propose the Minimal Predictive Sufficiency State Space Model (MPS-SSM), a new framework where the selective mechanism is guided by optimizing an objective function derived from our principle. This approach encourages the model to maximally compress historical information without losing predictive power, thereby learning to ignore non-causal noise and spurious patterns. Extensive experiments on a wide range of benchmark datasets demonstrate that MPS-SSM not only achieves state-of-the-art performance, significantly outperforming existing models in long-term forecasting and noisy scenarios, but also exhibits superior robustness. Furthermore, we show that the MPS principle can be extended as a general regularization framework to enhance other popular architectures, highlighting its broad potential.
- Abstract(参考訳): 状態空間モデル(SSM)、特に近年のMambaのような選択型は、シーケンシャルモデリングの主要なアーキテクチャとして登場し、トランスフォーマーの優位性に挑戦している。
しかし、これらの最先端モデルの成功は、厳密な第一原理の導出に欠ける、ヒューリスティックに設計された選択的なメカニズムに大きく依存している。
この理論的なギャップは、それらの最適性と、素早い相関に対する堅牢性に関する疑問を提起する。
これを解決するために, 理想的な隠蔽状態は, 未来を予測するのに必要最小限の統計量でなければならない, という新しい情報理論的基準である予測充足原理を導入する。
この原理に基づいて,本原理から導出される目的関数を最適化することにより選択的メカニズムを導出する新しい枠組みである最小予測整合状態空間モデル(MPS-SSM)を提案する。
このアプローチは、予測力を失うことなく、履歴情報を最大限に圧縮し、非因果ノイズやスプリアスパターンを無視することを学ぶことを奨励する。
幅広いベンチマークデータセットに対する大規模な実験により、MPS-SSMは最先端のパフォーマンスを達成するだけでなく、長期予測やノイズの多いシナリオにおいて既存のモデルよりもはるかに優れており、優れた堅牢性を示すことが示された。
さらに,MPSの原則を一般的な正規化フレームワークとして拡張することで,他の一般的なアーキテクチャを拡張できることを示す。
関連論文リスト
- Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting [52.6508222408558]
Eucidated Rolling Diffusion Models (ERDM)を紹介する。
ERDMはEucidated Diffusion Models (EDM) の原理的, 性能的設計とローリング予測構造を統一する最初のフレームワークである
2D Navier-StokesシミュレーションとERA5グローバル気象予報の1.5円解像度では、ERDMはキー拡散ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-24T21:44:31Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Pseudo-Bayesian Optimization [7.556071491014536]
ブラックボックス最適化の収束を保証するために最小限の要件を課す公理的枠組みについて検討する。
我々は、単純な局所回帰と、不確実性を定量化するために適切な「ランダム化事前」構造を用いることが、収束を保証するだけでなく、常に最先端のベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-15T07:55:28Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Neural Message Passing for Objective-Based Uncertainty Quantification
and Optimal Experimental Design [15.692012868181635]
データ駆動型アプローチに基づくMOCUによる客観的UQの計算コスト削減手法を提案する。
提案手法は,MOCUをベースとしたOEDを4~5桁の精度で高速化できることを示す。
論文 参考訳(メタデータ) (2022-03-14T14:08:46Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - At the Intersection of Deep Sequential Model Framework and State-space
Model Framework: Study on Option Pricing [2.3224617218247126]
非線形力学系の推論と予測問題は様々な文脈で発生してきた。
深層シーケンシャルモデルと状態空間モデルの両方を統一し、両方のフレームワークの優位性を実現するモデルを提案する。
論文 参考訳(メタデータ) (2020-12-14T18:21:41Z) - Maximum Entropy Model Rollouts: Fast Model Based Policy Optimization
without Compounding Errors [10.906666680425754]
我々は、最大エントロピーモデルロールアウト(MEMR)と呼ばれるダイナスタイルモデルに基づく強化学習アルゴリズムを提案する。
複雑なエラーをなくすために、我々はモデルを使って単一ステップのロールアウトを生成する。
論文 参考訳(メタデータ) (2020-06-08T21:38:15Z) - Goal-Directed Planning for Habituated Agents by Active Inference Using a
Variational Recurrent Neural Network [5.000272778136268]
本研究では, 予測符号化(PC)とアクティブ推論(AIF)フレームワークが, 低次元潜在状態空間における事前分布を学習することにより, より優れた一般化を実現できることを示す。
提案モデルでは, 最適潜伏変数を推定し, 実験結果の最小化のためのシナプス重みを推定することにより学習を行う。
提案手法は,シミュレーションにおけるロボットタスクと複雑なロボットタスクの両方を用いて評価し,限られた学習データを用いた学習における十分な一般化を実証した。
論文 参考訳(メタデータ) (2020-05-27T06:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。