論文の概要: MIPT-SSM: Scaling Language Models with $O(1)$ Inference Cache via Phase Transitions
- arxiv url: http://arxiv.org/abs/2604.07716v1
- Date: Thu, 09 Apr 2026 02:00:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.634321
- Title: MIPT-SSM: Scaling Language Models with $O(1)$ Inference Cache via Phase Transitions
- Title(参考訳): MIPT-SSM:相転移による$O(1)$推論キャッシュによる言語モデルのスケーリング
- Authors: Yasong Fan,
- Abstract要約: 計測誘起相転移の物理に基づくニューラルネットワークアーキテクチャMIPT-SSMを提案する。
このモデルは臨界シーケンス長$N*approx1024$で相転移を示すと予測され、情報密度比$N/D$はユニティに交差する。
AGニュース(4クラス分類)では、MIPT は Transformer の 0.736 (+16.6%) に対して0.905 の精度を達成し、3つの種で安定している。
無制限のキャッシュ容量では、$p_t$ゲートは、単一のクリティカルトークンのみを自律的に格納することを学ぶ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MIPT-SSM, a neural sequence architecture built on the physics of Measurement-Induced Phase Transitions (MIPT). The central idea is a learned measurement rate $p_{t}\in(0,1)$ that routes computation between two regimes: wave phase $(p_{t}\rightarrow0)$, where information propagates as distributed complex-phase interference; and particle phase $(p_{t}\rightarrow1)$ where the state collapses onto the current token, enabling precise local storage. These two regimes are provably incompatible in a single linear operator one of the few "no-go theorems" in sequence modeling and $p_{t}$ is our way around it. The model is predicted to exhibit a phase transition at critical sequence length $N^{*}\approx1024$, where the information density ratio $N/D$ crosses unity, consistent with our memory scaling observations. On AG News (four-class classification), MIPT achieves 0.905 accuracy versus Transformer's 0.736 (+16.6%), stable across 3 seeds. At $N=8192$ MIPT requires 810 MB versus Transformer's 34,651 MB a 42.8x memory reduction. On exact-recall ("needle-in-a-haystack"), our causal sparse KV cache achieves 0.968 accuracy. Remarkably, under unbounded cache capacity, the $p_{t}$ gate autonomously learns to store only the single critical token (averaging $1.0/512$ slots used), filtering out all noise and achieving a 99.8% sparsity rate. On language modeling (WikiText-103, 31M parameters), MIPT-LM with $K=64$ cache reaches PPL 92.1 versus Transformer's 90.5 (gap: 1.8%) while inference KV cache shrinks from $O(N)$ to $O(64)$.
- Abstract(参考訳): 我々は、測定誘起相転移(MIPT)の物理に基づいて構築されたニューラルネットワークアーキテクチャMIPT-SSMを提案する。
中心となる考え方は、学習された測定レート$p_{t}\in(0,1)$で、2つの状態間の計算をルートする: 波動相$(p_{t}\rightarrow0)$、情報が分散複合相干渉として伝播する; 粒子相$(p_{t}\rightarrow1)$ 状態が現在のトークンに崩壊し、正確な局所記憶を可能にする。
これら2つのレジームは、列モデリングにおける数少ない「ノーゴー定理」の1つである1つの線型作用素において証明不可能であり、$p_{t}$はそれを回避する方法である。
このモデルは臨界シーケンス長$N^{*}\approx1024$で相転移を示すと予測され、そこでは情報密度比$N/D$が、メモリスケーリング観測と整合的に交差する。
AGニュース(4クラス分類)では、MIPT は Transformer の 0.736 (+16.6%) に対して0.905 の精度を達成し、3つの種で安定している。
N=8192$MIPTは810MB、Transformerの34,651MBは42.8倍のメモリ削減を必要とする。
正確なリコール("needle-in-a-haystack")では、我々の因果スパースKVキャッシュは0.968精度を達成する。
注目すべきは、無制限のキャッシュ容量の下で、$p_{t}$ gateは、単一のクリティカルトークン(1.0/512$スロットの使用)のみを自律的に格納し、すべてのノイズをフィルタリングし、99.8%のスパシティレートを達成する。
言語モデリング(WikiText-103, 31Mパラメータ)では、$K=64$キャッシュを持つMIPT-LMがPPL 92.1に到達し、Transformerの90.5(ギャップ: 1.8%)に対して、KVキャッシュは$O(N)$から$O(64)$に減少する。
関連論文リスト
- Decoder Dependence in Surface-Code Threshold Estimation with Native Gottesman-Kitaev-Preskill Digitization and Parallelized Sampling [4.11280059407553]
パウリノイズとネイティブGKPスタイルのガウス変位ディジタル化という2つの整合状態下での表面符号閾値研究におけるデコーダ依存性のベンチマークを行った。
We benchmark MWPM, Union-Find (UF), Belief Propagation (BP), and neural-guided MWPM with fixed seed, same sweep grid, and unified reporting across across runs 06-14。
論文 参考訳(メタデータ) (2026-03-25T18:07:04Z) - Unsupervised Discovery of Intermediate Phase Order in the Frustrated $J_1$-$J_2$ Heisenberg Model via Prometheus Framework [0.0]
本稿では,Prometheus変分オートエンコーダフレームワークを適用して,J_1$-$J$位相図を探索する。
構造因子 $S(,)$ と $S(,)$ を支配的順序パラメータとして同定する。
この研究は、フラストレーションのある量子システムに機械学習を適用するためのスケーラブルな経路を確立する。
論文 参考訳(メタデータ) (2026-02-25T00:44:51Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - Beyond likelihood ratio bias: Nested multi-time-scale stochastic approximation for likelihood-free parameter estimation [49.78792404811239]
確率分析形式が不明なシミュレーションベースモデルにおける推論について検討する。
我々は、スコアを同時に追跡し、パラメータ更新を駆動する比率のないネスト型マルチタイムスケール近似(SA)手法を用いる。
我々のアルゴリズムは、オリジナルのバイアス$Obig(sqrtfrac1Nbig)$を排除し、収束率を$Obig(beta_k+sqrtfracalpha_kNbig)$から加速できることを示す。
論文 参考訳(メタデータ) (2024-11-20T02:46:15Z) - Sequence modeling of higher-order wave modes of binary black hole mergers [0.0]
準円、回転、非精密な二元ブラックホールの融合による高次重力波モードは、これらの系の非線形力学に関する重要な情報を符号化する。
我々はこれらの波形をトランスフォーマーアーキテクチャを用いてモデル化し、リングダウンによる晩期から晩期までの進化を目標にしている。
以上の結果から,変圧器を用いたモデルでは,双対ブラックホール融合の非線形ダイナミクスを高精度に捉えることが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-09-05T18:00:11Z) - Randomized Exploration for Reinforcement Learning with Multinomial Logistic Function Approximation [8.274693573069442]
多項ロジスティック(MNL)関数近似を用いた強化学習について検討した。
頻繁な後悔の保証を有するランダムな探索を伴う確率的効率のアルゴリズムを提案する。
数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-30T15:39:19Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Measurement-induced phase transition for free fermions above one dimension [46.176861415532095]
自由フェルミオンモデルに対する$d>1$次元における測定誘起エンタングルメント相転移の理論を開発した。
臨界点は、粒子数と絡み合いエントロピーの第2累積のスケーリング$$elld-1 ln ell$でギャップのない位相を分離する。
論文 参考訳(メタデータ) (2023-09-21T18:11:04Z) - Compressing 1D Time-Channel Separable Convolutions using Sparse Random
Ternary Matrices [65.4388266814055]
1次元時間チャネル分離可能な畳み込みの1x1-畳み込みを、定数でスパースな乱数三元行列で-1,0,+1$の重みで置き換える。
Google Speech Commands v1のコマンド認識のために、最新の精度を同じネットワークサイズで97.21%$から97.41%$に改善します。
librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1%を犠牲にします。
論文 参考訳(メタデータ) (2021-03-31T15:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。