論文の概要: Minimal-Intervention KV Retention: A Design-Space Study and a Diversity-Penalty Survivor
- arxiv url: http://arxiv.org/abs/2605.14292v1
- Date: Thu, 14 May 2026 02:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.590604
- Title: Minimal-Intervention KV Retention: A Design-Space Study and a Diversity-Penalty Survivor
- Title(参考訳): ミニマルインターベンションKV保持 : 設計空間研究と多様性の維持
- Authors: Libo Sun, Po-wei Harn, Peixiong He, Xiao Qin,
- Abstract要約: 小さな予算でのKVキャッシュ圧縮は、キャッシュ表現、ヘッドワイドルーティング、圧縮ケイデンス、デコード動作、予算内スコアリングにまたがる複雑な設計空間である。
本稿では,TriAttentioncitemao2026triattention Retention scorerの1機能的変更を提案する。
事前登録されたプロトコルは、凍結した開発スプリットで$をチューニングし、非結合のホールトアウトスプリットで$ = 0.5$、$$$は4つのうち2つでBonferroniをクリアする。
- 参考スコア(独自算出の注目度): 7.208745673318648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: KV-cache compression at small budgets is a crowded design space spanning cache representation, head-wise routing, compression cadence, decoding behavior, and within-budget scoring. We study seven mechanisms across these five families under matched mean cache on long-form mathematical reasoning (MATH-500~\cite{hendrycks2021math}) with two distilled-reasoning models (Qwen-7B and Llama-8B variants of DeepSeek-R1-Distill~\cite{deepseek2025r1}) at budgets $b \in \{64, 128\}$. All seven were rejected. We then propose $α$, a one-function modification to the TriAttention~\cite{mao2026triattention} retention scorer that replaces argmax-top-$k$ with greedy facility-location-inspired selection under a V-space redundancy penalty controlled by a single weight $λ$. A pre-registered protocol tunes $λ$ on a frozen development split and confirms on a disjoint held-out split; with $λ= 0.5$, $α$ clears Bonferroni on two of the four (model, budget) cells (Qwen $b{=}128$ and Llama $b{=}64$), no cell is significantly negative, and the pre-registered Branch~A triggers. The finding is asymmetric: a minimal scoring modification beat heavier structural redesigns in this regime, and the combined matched-memory, sympy-graded, held-out confirmation protocol is the evidence standard that made the asymmetry visible.
- Abstract(参考訳): 小さな予算でのKVキャッシュ圧縮は、キャッシュ表現、ヘッドワイドルーティング、圧縮ケイデンス、デコード動作、予算内スコアリングにまたがる複雑な設計空間である。
長形数理推論 (MATH-500~\cite{hendrycks2021math}) において,2つの蒸留推論モデル (DeepSeek-R1-Distill~\cite{deepseek2025r1} の変種 Qwen-7B および Llama-8B 変種) を予算 $b \in \{64, 128\}$ で整合平均キャッシュで検討した。
7人全員が解雇された。
次に,TriAttention~\cite{mao2026triattention} Retention scorerの1関数修飾である$α$を提案する。
事前登録されたプロトコルは、凍結した開発スプリットで$λ$をチューニングし、非結合のホールトアウト分割で確認する;$λ=0.5$, $α$ clears Bonferroniを4つの(モデル、予算)セル(Qwen $b{=}128$とLlama $b{=}64$)のうちの2つ(Qwen $b{=}128$とLlama $b{=}64$)で、セルが著しく陰性であり、事前登録されたブランチ~Aがトリガーする。
その発見は非対称であり、最小限のスコアリング修正が、この体制におけるより重い構造的再設計を破り、一致したメモリ、シンプシーグレード、保持された確認プロトコルが非対称性を可視化した証拠標準である。
関連論文リスト
- Sequential Minimal Optimization for $\varepsilon$-SVR with MAPE Loss and Sample-Dependent Box Constraints [0.0]
我々は、$varepsilon$-SVRciteVapnik 1995, Drucker 1997, Smola2004から生じる二次双対問題に対して、MAPE(Mean Absolute Percentage Error)を最小化するために、逐次最小最適化(SMO)アルゴリズムを導出した。
実装はオープンソースの textttpsvr R packageciteBenavidesHerrera2026Rpsvr で利用可能である。
論文 参考訳(メタデータ) (2026-05-02T13:51:46Z) - ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
LongMemEval-500では、ZenBrainは長いコンテキストのオラクルのバイナリ・ジャッジの精度を4.5pp以内と一致させる。
ZenBrainは7層の神経科学にインスパイアされたメモリアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - Learning Hippo: Multi-attractor Dynamics and Stability Effects in a Biologically Detailed CA3 Extension of Hopfield Networks [0.0]
本稿では,CA3における古典ホップフィールド/マーの自動連想メモリモデルの拡張について述べる。
われわれは10個体群(非対称錐体サブタイプ2種,GABA作動性インターニューロンクラス8種),4つのコンパートメント,複数ルール可塑性,およびバイモーダルコリン作動性エンコーディング/コンソリデーションサイクルを実装した。
論文 参考訳(メタデータ) (2026-04-22T15:28:17Z) - Training Transformers in Cosine Coefficient Space [0.0]
キャラクターレベルのシェイクスピアのスクラッチから訓練されたトランスフォーマーは、検証損失が1.604$で$K = mn/2$に達した。
同じトレーニング可能なパラメータ数でのランク48のLoRA分解は、わずか1.801$である。
ランダムな正規直交基底はノイズ中のDCTを$K = mn/2$で一致させ、$K = mn/10$と$K = mn/20$で圧縮すると、高階行列をホストできる部分空間が損失を低く保つことを示す。
論文 参考訳(メタデータ) (2026-04-06T05:39:31Z) - Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection [15.230462656535034]
標準変換器の注意は、クエリ、キー、および値(d_q = d_k = d_v = dmodel$)に同じ次元を使用する。
我々の洞察では、これらの成分は基本的に異なる役割を担っており、この対称性は不要である。
我々は、選択は本質的に値移動よりも低次元の操作であり、$Nの関連パターンを区別するためには$BigO(log N)次元しか必要としないと主張している。
論文 参考訳(メタデータ) (2026-02-16T23:45:39Z) - Burau representation, Squier's form, and non-Abelian anyons [53.92822954974537]
ブレイド群 $B_3$ のブラウ表現から構築した周波数可変2次元非アベリア的演算順序制御を導入する。
Squier 陽性ウィンドウの向こう側にある$Delta(omega)$の符号変更は、因果順序の交互に構成的かつ破壊的干渉を示す。
数値シミュレーションにより、拡張と抑制の両方が確認され、最小の$B_3$ブレイド制御が確立される。
論文 参考訳(メタデータ) (2025-10-21T00:25:21Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive
Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。
AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。
また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文 参考訳(メタデータ) (2021-02-09T07:46:34Z) - Towards Defending Multiple $\ell_p$-norm Bounded Adversarial
Perturbations via Gated Batch Normalization [120.99395850108422]
既存の敵防衛は、個々の摂動に対するモデル堅牢性を改善するのが一般的である。
最近の手法では、複数の$ell_p$球における敵攻撃に対するモデルロバスト性を改善するが、各摂動型に対するそれらの性能は、まだ十分ではない。
我々は,複数の$ell_pの有界摂動を守るために,摂動不変予測器を逆向きに訓練するGated Batch Normalization (GBN)を提案する。
論文 参考訳(メタデータ) (2020-12-03T02:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。