論文の概要: Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference
- arxiv url: http://arxiv.org/abs/2510.18413v1
- Date: Tue, 21 Oct 2025 08:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.159338
- Title: Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference
- Title(参考訳): Adamas氏: 効率的なロングコンテキスト推論のためのアダマールスパース注意
- Authors: Siyuan Yan, Guo-Qing Jiang, Yuchen Zhang, Xiaoxing Ma, Ran Zhu, Chun Cao, Jingwei Xu,
- Abstract要約: 我々は,長文推論用に設計された軽量かつ高精度なスパースアテンション機構であるAdamasを紹介する。
実験の結果、アダガスは64段階の予算しか持たず、128倍の性能で、従来のSOTA(State-of-the-art)の手法よりも最大8倍高い空間性をサポートすることがわかった。
- 参考スコア(独自算出の注目度): 15.466168180222164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) now support context windows of hundreds of thousands to millions of tokens, enabling applications such as long-document summarization, large-scale code synthesis, multi-document question answering and persistent multi-turn dialogue. However, such extended contexts exacerbate the quadratic cost of self-attention, leading to severe latency in autoregressive decoding. Existing sparse attention methods alleviate these costs but rely on heuristic patterns that struggle to recall critical key-value (KV) pairs for each query, resulting in accuracy degradation. We introduce Adamas, a lightweight yet highly accurate sparse attention mechanism designed for long-context inference. Adamas applies the Hadamard transform, bucketization and 2-bit compression to produce compact representations, and leverages Manhattan-distance estimation for efficient top-k selections. Experiments show that Adamas matches the accuracy of full attention with only a 64-token budget, achieves near-lossless performance at 128, and supports up to 8x higher sparsity than prior state-of-the-art (SOTA) methods while delivering up to 4.4x self-attention and 1.5x end-to-end speedups on 32K-length sequences. Remarkably, Adamas attains comparable or even lower perplexity than full attention, underscoring its effectiveness in maintaining accuracy under aggressive sparsity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数十万から数百万のトークンのコンテキストウィンドウをサポートし、長期文書要約、大規模コード合成、複数文書質問応答、永続的マルチターン対話などのアプリケーションを可能にする。
しかし、このような拡張されたコンテキストは、自己アテンションの二次的なコストを悪化させ、自己回帰的デコードに深刻な遅延をもたらす。
既存のスパースアテンション手法はこれらのコストを軽減するが、クエリ毎にキーバリュー(KV)ペアをリコールするのに苦労するヒューリスティックなパターンに依存しており、精度が低下する。
我々は,長文推論用に設計された軽量かつ高精度なスパースアテンション機構であるAdamasを紹介する。
アダマスは、コンパクトな表現を生成するためにアダマール変換、バケット化、2ビット圧縮を適用し、マンハッタン距離推定を利用して効率的なトップk選択を行う。
実験の結果、Adamasは64tokenの予算で完全注意の精度と一致し、128でほぼロスレスのパフォーマンスを達成し、32Kのシーケンスで最大4.4倍のセルフアテンションと1.5倍のエンドツーエンドのスピードアップを実現しながら、従来のSOTA(State-of-the-art)手法よりも最大8倍高いスパシティをサポートすることがわかった。
注目すべきは、Adamasは完全な注意力よりも同等またはより低いパープレキシティを獲得し、攻撃的なスパーシリティの下での精度維持の有効性を強調していることである。
関連論文リスト
- DELTA: Dynamic Layer-Aware Token Attention for Efficient Long-Context Reasoning [6.468843780300177]
モデル精度を犠牲にすることなく計算効率を向上する訓練不要なスパースアテンション機構である textbfDELTA を提案する。
この結果から,中間注意マップの選択的再利用は,より効率的な長文推論への頑健な道を提供することが示された。
論文 参考訳(メタデータ) (2025-10-10T21:37:49Z) - vAttention: Verified Sparse Attention [100.98210818821688]
vAttentionは、ユーザが指定した$(epsilon, delta)$の近似精度保証(thus, confirmed)を備えた実用的なスパースアテンションメカニズムである。
vAttentionはデータセット間のスパースアテンションの質を大幅に改善することを示す。
モデルの品質を損なうことなく高速なデコードを実現するために、推論シナリオにデプロイすることができる。
論文 参考訳(メタデータ) (2025-10-07T08:46:08Z) - Rectified Sparse Attention [61.7702154360081]
効率的なロングシーケンス生成は、大規模言語モデルにとって重要な課題である。
本稿では,ブロックスパースアテンションと周期的な密度補正を組み合わせた簡易かつ効果的な方法であるRectified Sparse Attention (ReSA)を提案する。
数学推論、言語モデリング、検索タスクにわたる実験は、ReSAがほぼ無作為な生成品質を達成することを示す。
論文 参考訳(メタデータ) (2025-06-04T16:01:48Z) - SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。
実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文 参考訳(メタデータ) (2024-12-09T04:27:03Z) - Cross-Self KV Cache Pruning for Efficient Vision-Language Inference [19.062950348441426]
KVキャッシュプルーニングは、長文自動回帰生成におけるメモリと計算コストを削減するための有望な手法として登場した。
我々は、注意スコアをモダリティ内注意(同じモダリティ)とモダリティ間注意(全体モダリティ)に分解することを提案する。
最終的なトレーニング不要手法である textbfCross-textbfSelf textbfPruning (CSP) は、完全なKVキャッシュを持つモデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-05T22:47:17Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。