論文の概要: HATA: Trainable and Hardware-Efficient Hash-Aware Top-k Attention for Scalable Large Model Inference
- arxiv url: http://arxiv.org/abs/2506.02572v1
- Date: Tue, 03 Jun 2025 07:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.415242
- Title: HATA: Trainable and Hardware-Efficient Hash-Aware Top-k Attention for Scalable Large Model Inference
- Title(参考訳): HATA: スケーラブルな大規模モデル推論のためのトレーニング可能でハードウェア効率の良いハッシュ対応トップkアテンション
- Authors: Ping Gong, Jiawei Yi, Shengnan Wang, Juncheng Zhang, Zewen Jin, Ouxiang Zhou, Ruibo Liu, Guanbin Xu, Youhui Bai, Bowen Ye, Kun Yuan, Tong Yang, Gong Zhang, Renhai Chen, Feng Wu, Cheng Li,
- Abstract要約: HATA(Hash-Aware Top-$k$ Attention)は、低オーバーヘッドの学習とハッシュのテクニックをTop-$k$のアテンションプロセスに統合する、新しいアプローチである。
大規模な実験により、HATAはバニラのフルアテンションに比べて最大7.2$times$スピードアップに達することが示されている。
- 参考スコア(独自算出の注目度): 45.10619068284478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have emerged as a pivotal research area, yet the attention module remains a critical bottleneck in LLM inference, even with techniques like KVCache to mitigate redundant computations. While various top-$k$ attention mechanisms have been proposed to accelerate LLM inference by exploiting the inherent sparsity of attention, they often struggled to strike a balance between efficiency and accuracy. In this paper, we introduce HATA (Hash-Aware Top-$k$ Attention), a novel approach that systematically integrates low-overhead learning-to-hash techniques into the Top-$k$ attention process. Different from the existing top-k attention methods which are devoted to seeking an absolute estimation of qk score, typically with a great cost, HATA maps queries and keys into binary hash codes, and acquires the relative qk score order with a quite low cost, which is sufficient for realizing top-k attention. Extensive experiments demonstrate that HATA achieves up to 7.2$\times$ speedup compared to vanilla full attention while maintaining model accuracy. In addition, HATA outperforms the state-of-the-art top-$k$ attention methods in both accuracy and efficiency across multiple mainstream LLM models and diverse tasks. HATA is open source at https://github.com/gpzlx1/HATA.
- Abstract(参考訳): 大きな言語モデル(LLM)が中心的な研究領域として登場したが、注意モジュールはKVCacheのような冗長計算を緩和する技術でさえも、LLM推論において重要なボトルネックとなっている。
LLM推論を加速するために、様々なトップ$のアテンション機構が提案されているが、彼らはしばしば効率と精度のバランスをとるのに苦労した。
本稿では,HATA(Hash-Aware Top-$k$ Attention)を紹介する。
HATAは、Qkスコアの絶対的な推定に要する既存のトップkアテンション手法とは異なり、クエリとキーをバイナリハッシュコードにマッピングし、相対的なqkスコアオーダーを非常に低コストで取得し、トップkアテンションを実現するのに十分である。
大規模な実験により、HATAはモデル精度を維持しながら、バニラフルアテンションに比べて最大7.2$\times$スピードアップを達成することが示された。
さらにHATAは、複数の主要なLCMモデルと多様なタスクの精度と効率の両方において、最先端のトップ$kのアテンションメソッドよりも優れています。
HATAはhttps://github.com/gpzlx1/HATAでオープンソース化されている。
関連論文リスト
- FlashBias: Fast Computation of Attention with Bias [77.39043478894504]
本稿では,低ランク圧縮センシング理論に基づくFlashBiasを提案する。
FlashBiasは、最新のGPUで非常に最適化された行列乗算演算をフル活用でき、AlphaFoldの1.5$times$スピードアップ、そして2$times$スピードアップを達成した。
論文 参考訳(メタデータ) (2025-05-17T15:12:50Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - MagicPIG: LSH Sampling for Efficient LLM Generation [41.75038064509643]
以上の結果から,TopKの注意力自体が特定の下流タスクの品質低下に悩まされていることが分かる。
局所感性ハッシュ(LSH)に基づく異種システムMagicPIGを提案する。
MagicPIGは、さまざまなタスクに対して高い精度を維持しながら、注意の負荷を大幅に削減する。
論文 参考訳(メタデータ) (2024-10-21T16:44:51Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - Climbing the WOL: Training for Cheaper Inference [50.63998662655047]
我々は、MIPSサブルーチンは、大きな内部積を高いリコールで回収するために調整されているため、準最適であると主張している。
提案手法はより効率的で,高い推論精度を実現するのに十分である。
論文 参考訳(メタデータ) (2020-07-02T16:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。