論文の概要: WriteSAE: Sparse Autoencoders for Recurrent State
- arxiv url: http://arxiv.org/abs/2605.12770v1
- Date: Tue, 12 May 2026 21:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.698564
- Title: WriteSAE: Sparse Autoencoders for Recurrent State
- Title(参考訳): WriteSAE: リカレントステートのためのスパースオートエンコーダ
- Authors: Jack Young,
- Abstract要約: 本稿では,ステートスペースおよびリカレント言語モデルの行列キャッシュ書き込みを分解・編集する最初のスパースオートエンコーダWriteSAEを紹介する。
既存のSAEは残余ストリームを読み取るが、Gated DeltaNet、Mamba-2、RWKV-7はランク1更新を通じて$d_kのd_v$キャッシュに書き込む。
WriteSAEは、各デコーダ原子をネイティブ書き込み形式に分解し、トーケンごとのロジットシフトのクローズドフォームを公開し、マッチしたフロベニウス標準の下での列車は一度に1つのキャッシュスロットを交換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce WriteSAE, the first sparse autoencoder that decomposes and edits the matrix cache write of state-space and hybrid recurrent language models, where residual SAEs cannot reach. Existing SAEs read residual streams, but Gated DeltaNet, Mamba-2, and RWKV-7 write to a $d_k \times d_v$ cache through rank-1 updates $k_t v_t^\top$ that no vector atom can replace. WriteSAE factors each decoder atom into the native write shape, exposes a closed form for the per-token logit shift, and trains under matched Frobenius norm so atoms swap one cache slot at a time. Atom substitution beats matched-norm ablation on 92.4% of $n=4{,}851$ firings at Qwen3.5-0.8B L9 H4, the 87-atom population test holds at 89.8%, the closed form predicts measured effects at $R^2=0.98$, and Mamba-2-370M substitutes at 88.1% over 2,500 firings. Sustained three-position installs at $3\times$ lift midrank target-in-continuation from 33.3% to 100% under greedy decoding, the first behavioral install at the matrix-recurrent write site.
- Abstract(参考訳): 本研究では,残余のSAEが到達できない状態空間およびハイブリッドリカレント言語モデルの行列キャッシュ書き込みを分解・編集する最初のスパースオートエンコーダWriteSAEを紹介する。
既存のSAEは残留ストリームを読み込むが、Gated DeltaNet、Mamba-2、RWKV-7はランク1の更新で$d_k \times d_v$キャッシュに書き込む。
WriteSAEは、各デコーダ原子をネイティブ書き込み形式に分解し、トーケンごとのロジットシフトのクローズドフォームを公開し、マッチしたフロベニウス標準の下での列車は一度に1つのキャッシュスロットを交換する。
原子置換反応は、Qwen3.5-0.8B L9 H4 での 92.4% の$n=4{,}851$ の焼成と一致し、87原子の個体数は89.8%であり、閉じた形は、R^2=0.98$で測定された効果を予測し、Mamba-2-370M は 2,500 回の焼成で 88.1% である。
継続された3つの配置のインストールは、3\times$ lift midrank target-in-continuation (33.3%から100%まで継続)であり、マトリクスのリカレント書き込みサイトにおける最初の動作的インストールである。
関連論文リスト
- Latent Phase-Shift Rollback: Inference-Time Error Correction via Residual Stream Monitoring and KV-Cache Steering [4.032680910442999]
大規模な言語モデルは、世代中頃の保存不可能な推論エラーを犯す。
我々は、$textbfLatent Phase-Shift Rollback$ (LPSR)を紹介する。
各生成段階において、臨界層リクリットで残留流をモニタリングし、コサイン相似性$+$エントロピー二重ゲートを介して急激な方向逆転(位相シフト)を検出する。
微調整、勾配計算、追加のフォワードパスは不要である。
論文 参考訳(メタデータ) (2026-04-20T17:53:33Z) - Copy-as-Decode: Grammar-Constrained Parallel Prefill for LLM Editing [2.6382975801439836]
LLMは、入力中にほとんどのトークンが冗長に見える場合でも、全出力を自動回帰的に再生することでテキストとコードを編集する。
Copy-as-Decodeは、2プリミティブ文法上の構造化復号化として生成を再キャストする復号化機構である。
論文 参考訳(メタデータ) (2026-04-20T12:29:53Z) - Breaking the KV Cache Bottleneck: Fan Duality Model Achieves O(1) Decode Memory with Superior Associative Recall [0.0]
Fan Duality Modelは、シーケンスモデリングにおけるメモリ効率と連想リコールの間の緊張を解消する。
FDMはシーケンス処理を、長距離パターンを隠蔽状態に圧縮する波動成分と、特定のトークンを取得する粒子成分の2つのコンポーネントに分割する。
本稿では,再帰的なスキャンを凍結し,キャッシュを埋め込みと共に最適化する2段階のトレーニング戦略であるFreeze-Scanを提案する。
論文 参考訳(メタデータ) (2026-04-09T02:00:30Z) - SplashNet: Split-and-Share Encoders for Accurate and Efficient Typing with Surface Electromyography [3.3640830721676003]
手首にある表面筋電図(sEMG)は、キーボードのない自然なテキスト入力を可能にする。
最先端の Emg2qwerty ベースラインは、まだ見知らぬユーザーのゼロショット設定で511.8%の文字を認識していない。
これらの誤りの多くを、ユーザ間信号統計のミスマッチに追従する。
論文 参考訳(メタデータ) (2025-06-14T05:38:29Z) - Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass [72.07642648108849]
Superposed Decodingは、1つの自己回帰推論パスのコストで$k$のドラフトを生成する新しい復号アルゴリズムである。
Superposed Decodingは、他のデコード戦略と組み合わせることで、推論時間計算のスケーリング時に普遍的なカバレッジが向上する。
論文 参考訳(メタデータ) (2024-05-28T17:40:48Z) - Efficient Spatially Sparse Inference for Conditional GANs and Diffusion
Models [92.24727170517335]
既存の深部生成モデルは、未編集領域を含む出力全体をスクラッチから再合成する傾向がある。
本稿では,編集領域の計算を選択的に行う汎用手法である空間スパース推論(SSI)を提案する。
本稿では,Sparse Incremental Generative Engine (SIGE) を提案する。
論文 参考訳(メタデータ) (2022-11-03T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。