論文の概要: TriAttention: Efficient Long Reasoning with Trigonometric KV Compression
- arxiv url: http://arxiv.org/abs/2604.04921v1
- Date: Mon, 06 Apr 2026 17:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.331656
- Title: TriAttention: Efficient Long Reasoning with Trigonometric KV Compression
- Title(参考訳): TriAttention:Trigonometric KV Compressionによる高効率ロング推論
- Authors: Weian Mao, Xi Lin, Wei Huang, Yuxin Xie, Tianfu Fu, Bohan Zhuang, Song Han, Yukang Chen,
- Abstract要約: 大規模言語モデル(LLM)の拡張推論は、深刻なKVキャッシュメモリボトルネックを生み出す。
KVキャッシュ圧縮手法は、最近のポストRoPEクエリの注意点を用いてKVの重要度を推定する。
我々はこれらのセンターを活用して重要な重要度を推定するためにTriAttentionを提案する。
- 参考スコア(独自算出の注目度): 42.4775416331056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extended reasoning in large language models (LLMs) creates severe KV cache memory bottlenecks. Leading KV cache compression methods estimate KV importance using attention scores from recent post-RoPE queries. However, queries rotate with position during RoPE, making representative queries very few, leading to poor top-key selection and unstable reasoning. To avoid this issue, we turn to the pre-RoPE space, where we observe that Q and K vectors are highly concentrated around fixed non-zero centers and remain stable across positions -- Q/K concentration. We show that this concentration causes queries to preferentially attend to keys at specific distances (e.g., nearest keys), with the centers determining which distances are preferred via a trigonometric series. Based on this, we propose TriAttention to estimate key importance by leveraging these centers. Via the trigonometric series, we use the distance preference characterized by these centers to score keys according to their positions, and also leverage Q/K norms as an additional signal for importance estimation. On AIME25 with 32K-token generation, TriAttention matches Full Attention reasoning accuracy while achieving 2.5x higher throughput or 10.7x KV memory reduction, whereas leading baselines achieve only about half the accuracy at the same efficiency. TriAttention enables OpenClaw deployment on a single consumer GPU, where long context would otherwise cause out-of-memory with Full Attention.
- Abstract(参考訳): 大規模言語モデル(LLM)の拡張推論は、深刻なKVキャッシュメモリボトルネックを生み出す。
KVキャッシュ圧縮手法は、最近のポストRoPEクエリの注意点を用いてKVの重要度を推定する。
しかし、クエリはRoPEの間の位置に応じて回転し、代表クエリはほとんどなく、トップキーの選択が貧弱で不安定な推論に繋がる。
この問題を避けるために、我々は先RoPE空間に目を向け、Q と K ベクトルは固定された非ゼロ中心を中心に集中しており、位置をまたいで安定である-Q/K 濃度を観察する。
この濃度は、クエリーが特定の距離(例えば、最も近い鍵)のキーに優先的に出席することを示し、中心は三角級数によってどの距離が好ましいかを決定する。
そこで本研究では,これらのセンターを活用して重要度を推定するTriAttentionを提案する。
三角級数では、これらの中心が特徴とする距離選好を用いて、位置に応じてキーをスコアし、Q/Kノルムを重要度推定のための追加信号として利用する。
AIME25では32Kトーケンが生成され、TriAttentionは2.5倍高いスループットと10.7倍のKVのメモリ削減を達成する一方、リードベースラインは同じ効率でほぼ半分の精度しか達成しない。
TriAttentionはOpenClawを単一のコンシューマGPU上にデプロイすることを可能にする。
関連論文リスト
- QUOKA: Query-Oriented KV Selection For Efficient LLM Prefill [5.014026212750645]
提案するQUoka: クエリ指向のKV選択を効率よく注目する。
その結果,QUokaは注目度評価あたりのキー値ペアを88%減らし,ほぼベースライン精度を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-09T14:32:26Z) - Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference [54.467557491325046]
本稿では,注意スコアの前にKVエントリを選択し,明示的な精度制御を行うプリホックスパシティ(PrHS)を提案する。
PrHSは検索オーバーヘッドを90%以上削減し、HShareよりも3倍高い精度で検索できる。
これはLongBenchの平均劣化率を1%以下に抑え、FLOPを約15%減らし、9.9倍のレイテンシと2.8倍のスループットを得る。
論文 参考訳(メタデータ) (2026-02-09T07:05:23Z) - CTkvr: KV Cache Retrieval for Long-Context LLMs via Centroid then Token Indexing [28.184704036272787]
長いコンテキストは、大きな言語モデルにおいて推論効率に重大な課題をもたらす。
我々は,新しい遠心分離型KV検索方式であるCTKVRを提案する。
CTKVRは、1%未満の精度で、複数のベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-17T15:56:32Z) - Value-Guided KV Compression for LLMs via Approximated CUR Decomposition [24.262712463465665]
CurDKVは、CUR行列分解から計算したレバレッジスコアに基づいてキーと値を選択する、新しい、値中心のKV圧縮手法である。
我々のアプローチは、注意出力$softmax(QKT)V$の支配的部分空間を近似し、保持されたトークンがモデルの予測挙動を最善に維持することを保証する。
論文 参考訳(メタデータ) (2025-09-18T15:04:06Z) - Homogeneous Keys, Heterogeneous Values: Exploiting Local KV Cache Asymmetry for Long-Context LLMs [28.554617623874176]
我々は、KVキャッシュにおいて、基本的かつ以前見過ごされた非対称性を示す。
キー値の非対称性は、既存の圧縮法に限界があることを示している。
均質性に基づく鍵マージと数学的に証明されたロスレス値圧縮を併用したトレーニングフリー圧縮フレームワーク(AsymKV)を提案する。
論文 参考訳(メタデータ) (2025-06-04T16:10:44Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。