論文の概要: Breaking the KV Cache Bottleneck: Fan Duality Model Achieves O(1) Decode Memory with Superior Associative Recall
- arxiv url: http://arxiv.org/abs/2604.07716v2
- Date: Sat, 11 Apr 2026 09:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 14:47:45.71457
- Title: Breaking the KV Cache Bottleneck: Fan Duality Model Achieves O(1) Decode Memory with Superior Associative Recall
- Title(参考訳): KVキャッシュブートネックを破る: ファン二重性モデルによるO(1)デコードメモリの実現
- Authors: Yasong Fan,
- Abstract要約: Fan Duality Modelは、シーケンスモデリングにおけるメモリ効率と連想リコールの間の緊張を解消する。
FDMはシーケンス処理を、長距離パターンを隠蔽状態に圧縮する波動成分と、特定のトークンを取得する粒子成分の2つのコンポーネントに分割する。
本稿では,再帰的なスキャンを凍結し,キャッシュを埋め込みと共に最適化する2段階のトレーニング戦略であるFreeze-Scanを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FDM (Fan Duality Model), a linear sequence architecture that resolves the fundamental tension between memory efficiency and associative recall in sequence modeling. FDM separates sequence processing into two components: a wave component (recurrent scan via phase-preserving Givens rotations) that compresses long-range patterns into a fixed-size complex hidden state, and a particle component (local-global cache) that retrieves specific tokens via learned associative addressing with W+K=272 slots independent of sequence length N. This yields strictly O(1) decode memory: 867 MB fixed across all prompt lengths 128-8,192 tokens, versus Transformer's 853-4,247 MB (4.9x reduction at N=8,192). Beyond the architecture, we discover that jointly training the wave and particle components leads to suboptimal convergence. We propose Freeze-Scan, a two-phase training strategy that freezes the recurrent scan and optimizes the cache jointly with embeddings, achieving PPL=64.9 on WikiText-103 in 44K steps -- a 7.5x improvement over full fine-tuning (PPL=487). On Multi-Query Associative Recall (MQAR), FDM achieves 0.966 accuracy, surpassing Transformer (0.606) by 59.5%, while pure scan without cache scores only 0.011, confirming the necessity of the particle component. Finally, we introduce Holographic Reference Beam Decoding, interpreting the complex hidden state h_t as a holographic plate encoding the entire temporal history. Using the current input x_t as a reference beam to modulate h_t reduces PPL by up to 2.13 points (PPL=62.79) with a 4-head orthogonal reference beam using only 1.3M additional parameters, providing empirical support for the holographic interpretation. Code and pretrained weights: https://github.com/YasongFan/FDM
- Abstract(参考訳): 本稿では,FDM(Fan Duality Model)を提案する。FDM(Fan Duality Model)は,シーケンスモデリングにおいて,メモリ効率と連想リコールの基本的な緊張を解消する線形シーケンスアーキテクチャである。
FDMはシーケンス処理を2つのコンポーネントに分割する: 長い範囲のパターンを固定サイズの複素隠蔽状態に圧縮する波動成分(位相保存による繰り返しスキャン)と、学習したW+K=272スロットによる特定のトークンをシーケンス長Nから独立して取得する粒子成分(局所グロバルキャッシュ)。
アーキテクチャを超えて、波動成分と粒子成分を共同で訓練することで、最適下収束がもたらされる。
我々は,再実行スキャンを凍結し,埋め込みと共同でキャッシュを最適化する2段階のトレーニング戦略であるFreeze-Scanを提案し,WikiText-103のPPL=64.9を44Kステップで達成した。
Multi-Query Associative Recall (MQAR)では、FDMが0.966の精度を達成し、Transformer (0.606) を59.5%上回った。
最後に、ホログラフィック参照ビームデコーディングを導入し、複雑な隠れ状態h_tを時間履歴全体を符号化したホログラフィックプレートとして解釈する。
電流入力 x_t を基準ビームとして h_t を変調することにより、PPL を最大2.13点 (PPL=62.79) まで減少させる。
コードと事前トレーニング:https://github.com/YasongFan/FDM
関連論文リスト
- Decoder Dependence in Surface-Code Threshold Estimation with Native Gottesman-Kitaev-Preskill Digitization and Parallelized Sampling [4.11280059407553]
パウリノイズとネイティブGKPスタイルのガウス変位ディジタル化という2つの整合状態下での表面符号閾値研究におけるデコーダ依存性のベンチマークを行った。
We benchmark MWPM, Union-Find (UF), Belief Propagation (BP), and neural-guided MWPM with fixed seed, same sweep grid, and unified reporting across across runs 06-14。
論文 参考訳(メタデータ) (2026-03-25T18:07:04Z) - Unsupervised Discovery of Intermediate Phase Order in the Frustrated $J_1$-$J_2$ Heisenberg Model via Prometheus Framework [0.0]
本稿では,Prometheus変分オートエンコーダフレームワークを適用して,J_1$-$J$位相図を探索する。
構造因子 $S(,)$ と $S(,)$ を支配的順序パラメータとして同定する。
この研究は、フラストレーションのある量子システムに機械学習を適用するためのスケーラブルな経路を確立する。
論文 参考訳(メタデータ) (2026-02-25T00:44:51Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - Beyond likelihood ratio bias: Nested multi-time-scale stochastic approximation for likelihood-free parameter estimation [49.78792404811239]
確率分析形式が不明なシミュレーションベースモデルにおける推論について検討する。
我々は、スコアを同時に追跡し、パラメータ更新を駆動する比率のないネスト型マルチタイムスケール近似(SA)手法を用いる。
我々のアルゴリズムは、オリジナルのバイアス$Obig(sqrtfrac1Nbig)$を排除し、収束率を$Obig(beta_k+sqrtfracalpha_kNbig)$から加速できることを示す。
論文 参考訳(メタデータ) (2024-11-20T02:46:15Z) - Sequence modeling of higher-order wave modes of binary black hole mergers [0.0]
準円、回転、非精密な二元ブラックホールの融合による高次重力波モードは、これらの系の非線形力学に関する重要な情報を符号化する。
我々はこれらの波形をトランスフォーマーアーキテクチャを用いてモデル化し、リングダウンによる晩期から晩期までの進化を目標にしている。
以上の結果から,変圧器を用いたモデルでは,双対ブラックホール融合の非線形ダイナミクスを高精度に捉えることが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-09-05T18:00:11Z) - Randomized Exploration for Reinforcement Learning with Multinomial Logistic Function Approximation [8.274693573069442]
多項ロジスティック(MNL)関数近似を用いた強化学習について検討した。
頻繁な後悔の保証を有するランダムな探索を伴う確率的効率のアルゴリズムを提案する。
数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-30T15:39:19Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Measurement-induced phase transition for free fermions above one dimension [46.176861415532095]
自由フェルミオンモデルに対する$d>1$次元における測定誘起エンタングルメント相転移の理論を開発した。
臨界点は、粒子数と絡み合いエントロピーの第2累積のスケーリング$$elld-1 ln ell$でギャップのない位相を分離する。
論文 参考訳(メタデータ) (2023-09-21T18:11:04Z) - Compressing 1D Time-Channel Separable Convolutions using Sparse Random
Ternary Matrices [65.4388266814055]
1次元時間チャネル分離可能な畳み込みの1x1-畳み込みを、定数でスパースな乱数三元行列で-1,0,+1$の重みで置き換える。
Google Speech Commands v1のコマンド認識のために、最新の精度を同じネットワークサイズで97.21%$から97.41%$に改善します。
librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1%を犠牲にします。
論文 参考訳(メタデータ) (2021-03-31T15:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。