論文の概要: Causal Attention with Lookahead Keys
- arxiv url: http://arxiv.org/abs/2509.07301v1
- Date: Tue, 09 Sep 2025 00:15:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.155405
- Title: Causal Attention with Lookahead Keys
- Title(参考訳): Lookahead Keys を用いた因果注意
- Authors: Zhuoqing Song, Peng Sun, Huizhuo Yuan, Quanquan Gu,
- Abstract要約: 標準的な因果的注意では、各トークンのクエリ、キー、値(QKV)は静的であり、先行するコンテキストのみをエンコードする。
本研究では,Lookahead kEys (CASTLE) を用いたCAuSal aTtentionを導入する。
- 参考スコア(独自算出の注目度): 52.63961482746826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In standard causal attention, each token's query, key, and value (QKV) are static and encode only preceding context. We introduce CAuSal aTtention with Lookahead kEys (CASTLE), an attention mechanism that continually updates each token's keys as the context unfolds. We term these updated keys lookahead keys because they belong to earlier positions yet integrate information from tokens that appear later relative to those positions, while strictly preserving the autoregressive property. Although the mechanism appears sequential, we derive a mathematical equivalence that avoids explicitly materializing lookahead keys at each position and enables efficient parallel training. On language modeling benchmarks, CASTLE consistently outperforms standard causal attention across model scales, reducing validation perplexity and improving performance on a range of downstream tasks.
- Abstract(参考訳): 標準的な因果的注意では、各トークンのクエリ、キー、値(QKV)は静的であり、先行するコンテキストのみをエンコードする。
本研究では,Lookahead kEys (CASTLE) を用いたCAuSal aTtentionを紹介した。
これらの更新キーのルックアヘッドキーは、以前の位置に属するが、これらの位置に対して後から現れるトークンからの情報を統合し、厳格に自己回帰プロパティを保存するため、定義する。
このメカニズムは逐次的に現れるが、各位置におけるルックアヘッドキーの明示的な実体化を回避し、効率的な並列トレーニングを可能にする数学的等価性(英語版)を導出する。
言語モデリングベンチマークでは、CASTLEはモデルスケール全体の標準的な因果的注意を一貫して上回り、検証の難易度を低減し、下流タスクの幅広いパフォーマンスを改善する。
関連論文リスト
- CompressKV: Semantic Retrieval Heads Know What Tokens are Not Important Before Generation [7.119276797399788]
キー値(KV)キャッシュサイズの増加は、メモリと実行効率に重大な課題をもたらす。
ほとんどのKVキャッシュ圧縮手法は、GQA (Grouped Query Attention) ベースの LLM において、すべてのアテンションヘッドを用いたトークンの排除に依存している。
我々は階層適応型KVキャッシュ割り当て戦略を導入し、様々なメモリ予算下での最先端のアプローチを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-04T13:26:16Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - AhaKV: Adaptive Holistic Attention-Driven KV Cache Eviction for Efficient Inference of Large Language Models [14.013793473739236]
我々は,蓄積した注目スコアのバイアスに対処するため,適応的全体的注意KV(Aha KV)を提案する。
Aha KVはバイアスを緩和し、グローバルな文脈で重要なトークンを保持します。
論文 参考訳(メタデータ) (2025-06-04T09:25:53Z) - Inference-time sparse attention with asymmetric indexing [23.305984099821618]
トランスモデルの自己アテンションは、キーベクトルを値ベクトルにマッピングするインクリメンタルな連想メモリである。
自己注意の高速化の1つの方法は、k-meansのような標準的なパーティショニング手法に基づいたGPU互換のベクトル探索アルゴリズムを採用することである。
本稿ではこれらの問題を克服したSaapを紹介する。
非対称な索引付け手法で、キーとクエリのパーティションを区別し、データ適応型スパーシティパターンで自己アテンションを近似する。
論文 参考訳(メタデータ) (2025-02-12T09:39:54Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Representation Learning of Tangled Key-Value Sequence Data for Early Classification [19.943311002522154]
キーバリューシーケンスデータはユビキタスになり、様々な現実世界のアプリケーションに自然に現れる。
これらのキーバリューシーケンスの分類は、ユーザプロファイリングや悪意のあるアプリケーション識別など、多くのシナリオにおいて重要である。
多くの時間に敏感なシナリオでは、キー値シーケンスを正確に分類することに加えて、キー値シーケンスを早期に分類することが望まれる。
論文 参考訳(メタデータ) (2024-04-11T03:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。