論文の概要: Nectar: Neural Estimation of Cached-Token Attention via Regression
- arxiv url: http://arxiv.org/abs/2605.09778v1
- Date: Sun, 10 May 2026 21:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.417216
- Title: Nectar: Neural Estimation of Cached-Token Attention via Regression
- Title(参考訳): Nectar: 回帰によるCached-Token注意のニューラル推定
- Authors: João Monteiro, Michal Klein, Pierre Ablin, Marco Cuturi,
- Abstract要約: 固定長コンテキスト上でのソフトマックスアテンションを評価するために,コンパクトニューラルネットワークをどのように利用できるかを示す。
Nectarは、層ごとに2つのネットワークに適合し、KVヘッドは、注意出力を予測するターゲットネットワークと、ログ正規化器を予測するスコアネットワークである。
我々は,5つの長文データセットにまたがる1.7Bから8Bパラメータのモデルについて実験を行った。
- 参考スコア(独自算出の注目度): 36.709992864731866
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating softmax attention over a fixed long context requires reading every cached key-value pair for each new query token. For a given context (a book, a manual, a legal corpus) the attention output is a deterministic function of the query. We propose Nectar, which fits a compact neural network to this function for queries drawn from a task-relevant distribution. Nectar fits two networks per layer and KV-head: a target network that predicts the attention output and a score network that predicts the log-normalizer. The pair plugs into the standard masked self-attention at inference time, replacing the $O(n)$ attention over the cache with a forward pass whose cost does not depend on $n$. Each module carries on the order of $|θ|$ parameters per layer and KV-head, typically much smaller than the $2nd$ KV-cache footprint at the same granularity. We report experiments on models from 1.7B to 8B parameters across five long-context datasets. The approximation error tracks the next-token accuracy gap to full attention, and allocating capacity non-uniformly across layers reduces that gap in our ablation. Beyond this analysis of metrics, we check that the text generations (following a question prompt) of a model equipped with a Nectar module match in semantic content those obtained by giving the same model access to the full cache.
- Abstract(参考訳): 固定長コンテキストに対するソフトマックスの注意力を評価するには、新しいクエリトークン毎に、キャッシュされたキーと値のペアをすべて読む必要がある。
与えられたコンテキスト(本、マニュアル、法定コーパス)に対して、アテンション出力はクエリの決定論的関数である。
我々は,タスク関連分布から引き出されたクエリに対して,この関数にコンパクトなニューラルネットワークを適合させるNectarを提案する。
Nectarは、層ごとに2つのネットワークに適合し、KVヘッドは、注意出力を予測するターゲットネットワークと、ログ正規化器を予測するスコアネットワークである。
キャッシュ上の$O(n)$の注意を、コストが$n$に依存しないフォワードパスに置き換える。
各モジュールは、層ごとの$|θ|$パラメータとKVヘッドの順序を持ち、通常、同じ粒度の2nd$KV-cacheフットプリントよりもはるかに小さい。
我々は,5つの長文データセットにまたがる1.7Bから8Bパラメータのモデルについて実験を行った。
近似誤差は次の精度ギャップをフルアテンションに追跡し、層に不均一に容量を割り当てることで、アブレーションのギャップを減らします。
このメトリクスの分析の他に、Nectarモジュールを備えたモデルのテキスト生成(質問プロンプトのフォロー)が、同じモデルがフルキャッシュにアクセスすることで得られるセマンティックコンテンツと一致することを確認する。
関連論文リスト
- Stochastic Sparse Attention for Memory-Bound Inference [19.301894658575502]
SANTA(Additive No-mult Attention)は,ソフトマックス後の分布から$S ll n_k$インデックスをサンプリングすることで,値キャッシュアクセスを分散する手法である。
また、スコアステージをスパース化するための補完手法としてBernoulli $qKmathsfT$サンプリングを提案する。
論文 参考訳(メタデータ) (2026-05-03T14:44:14Z) - EntropyCache: Decoded Token Entropy Guided KV Caching for Diffusion Language Models [8.323540970510809]
本稿では,新たに復号されたトークン分布の最大エントロピーを,いつ再計算するかを決定するための定コスト信号として利用する,トレーニング不要なKVキャッシュ手法であるEntropyCacheを提案する。
LLaDA-8B-InstructとDream-7B-Instructの実験によると、EntropyCacheは15.2times$-26.4times$標準ベンチマークのスピードアップ、22.4times$-24.1times$-24.1times$。
論文 参考訳(メタデータ) (2026-03-19T04:46:34Z) - Catch Your Breath: Adaptive Computation for Self-Paced Sequence Production [55.76222360698305]
我々は,言語モデルが入力トークン毎に使用する計算ステップの数を動的かつ自律的に拡張できるような,教師付きトレーニング目標のクラスを探索する。
任意のトークンに対して、モデルは don't know> 出力を出力することで、追加の計算ステップを要求できる。
CYBモデルでは精度が向上し,トークンレベルの複雑性とコンテキストに処理時間を適用することができる。
論文 参考訳(メタデータ) (2025-10-13T21:07:05Z) - DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - Certifiably Robust Model Evaluation in Federated Learning under Meta-Distributional Shifts [8.700087812420687]
異なるネットワーク "B" 上でモデルの性能を保証する。
我々は、原則付きバニラDKWバウンダリが、同じ(ソース)ネットワーク内の未確認クライアント上で、モデルの真のパフォーマンスの認証を可能にする方法を示す。
論文 参考訳(メタデータ) (2024-10-26T18:45:15Z) - Semi-Supervised and Long-Tailed Object Detection with CascadeMatch [91.86787064083012]
そこで我々はCascadeMatchと呼ばれる新しい擬似ラベル型検出器を提案する。
我々の検出器は、プログレッシブな信頼しきい値を持つ多段検出ヘッドを備えたカスケードネットワークアーキテクチャを備えている。
CascadeMatchは、長い尾のオブジェクト検出の処理において、既存の最先端の半教師付きアプローチを超越していることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:09:25Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z) - A Law of Robustness for Weight-bounded Neural Networks [37.54604146791085]
最近(bubeck et al., 2020)は、k$ニューロンを持つ2層ネットワークを使ってジェネリックデータセットに適合する場合、最小のリプシッツ定数は$omega(sqrtfracnk)$であると予想した。
本研究では,任意のモデルクラスに対して,有界ラデマチャー複雑性を持つLipschitz定数の下限を導出する。
この結果は(bubeck et al., 2020)2層ネットワークにおける有界重みを仮定した予想と一致する。
論文 参考訳(メタデータ) (2021-02-16T11:28:59Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Cryptanalytic Extraction of Neural Network Models [56.738871473622865]
遠隔モデルのパラメータを浮動小数点精度まで効率的に盗むことができる差動攻撃を導入する。
我々の攻撃は、ReLUニューラルネットワークが一括線形関数であるという事実に依存している。
220倍の正確さと100倍のクエリを必要とするモデルを抽出する。
論文 参考訳(メタデータ) (2020-03-10T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。