論文の概要: AQUA: Attention via QUery mAgnitudes for Memory and Compute Efficient Inference in LLMs
- arxiv url: http://arxiv.org/abs/2509.11155v1
- Date: Sun, 14 Sep 2025 08:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.948828
- Title: AQUA: Attention via QUery mAgnitudes for Memory and Compute Efficient Inference in LLMs
- Title(参考訳): AQUA: LLMにおけるメモリと計算効率の推論のためのQUery mAgnitudesによる注意
- Authors: Santhosh G S, Saurav Prakash, Balaraman Ravindran,
- Abstract要約: AQUA (Attention via QUery mAgnitudes) は、新規で多用途な近似戦略である。
注目点積の25%削減は,統計的に有意な影響を伴って達成できることが示唆された。
- 参考スコア(独自算出の注目度): 7.603859408568262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic complexity of the attention mechanism remains a fundamental barrier to scaling Large Language Models (LLMs) to longer contexts, creating a critical bottleneck in both computation and memory. To address this, we introduce AQUA (Attention via QUery mAgnitudes) a novel and versatile approximation strategy that significantly reduces the cost of attention with a graceful performance trade-off. Our method operates in two phases: an efficient offline step where we compute a universal, language agnostic projection matrix via SVD on a calibration dataset, and an online inference step where we project query and key vectors and dynamically select a sparse subset of dimensions based on the query's magnitude. We provide a formal theoretical analysis of AQUA, establishing the break-even point at which it becomes more computationally efficient than standard attention. Our empirical evaluations on state-of-the-art models like Llama-3.1-8B demonstrate that a 25% reduction in the attention dot-product computation can be achieved with a statistically insignificant impact on performance across a wide range of benchmarks. We further showcase the versatility of AQUA by demonstrating its ability to synergistically accelerate existing token eviction methods like H2O and to directly reduce KV-cache memory size. By offering a controllable knob to balance efficiency and accuracy, AQUA provides a practical and powerful tool for making large-scale LLM inference more accessible and sustainable.
- Abstract(参考訳): 注意機構の二次的な複雑さは、より大きな言語モデル(LLM)を長いコンテキストに拡張するための基本的な障壁であり、計算とメモリの両方において重要なボトルネックを生み出します。
そこで本稿では,AQUA(Attention via QUery mAgnitudes)という,優れたパフォーマンストレードオフによって注目のコストを大幅に削減する,斬新で汎用的な近似戦略を導入する。
本手法は,キャリブレーションデータセット上のSVDによる汎用言語非依存のプロジェクション行列の計算を行う効率的なオフラインステップと,クエリとキーベクトルをプロジェクションし,クエリの規模に基づいて疎部分集合を動的に選択するオンライン推論ステップの2段階で動作する。
我々は、AQUAの形式的理論的解析を行い、標準的注意力よりも計算効率が良くなる破局点を確立する。
Llama-3.1-8Bのような最先端モデルに対する実証的な評価は、注目点積計算の25%の削減が、幅広いベンチマークのパフォーマンスに統計的に無意味な影響を及ぼすことを実証している。
さらに、H2Oのような既存のトークン消去手法を相乗的に高速化し、KVキャッシュメモリサイズを直接的に削減できることを示し、AQUAの汎用性を示す。
効率と精度のバランスをとるための制御可能なノブを提供することで、AQUAは大規模LLM推論をより使いやすく、持続可能なものにするための実用的で強力なツールを提供する。
関連論文リスト
- SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.20542521694524]
SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。
本研究では,SmallKVのスループットがベースライン法よりも1.75~2.56倍高いことを示す。
論文 参考訳(メタデータ) (2025-08-03T09:15:36Z) - KLLM: Fast LLM Inference with K-Means Quantization [6.266554375328823]
K平均量子化重みとアクティベーションを用いた効率的な実行のための推論アクセラレータであるKLLMを提案する。
KLLMは、K-Means量子化データ上でのMatMulsと非線形演算を効率的に実行するためのインデックスベースの計算スキームを備えている。
論文 参考訳(メタデータ) (2025-07-30T19:01:25Z) - IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。
IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文 参考訳(メタデータ) (2025-07-16T06:39:11Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。