論文の概要: Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction
- arxiv url: http://arxiv.org/abs/2510.01817v1
- Date: Thu, 02 Oct 2025 09:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.066872
- Title: Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction
- Title(参考訳): スパースクエリアテンション(SQA):クエリヘッドの削減を伴う計算効率の良いアテンション機構
- Authors: Adam Filipek,
- Abstract要約: 本稿では,新しいアテンションアーキテクチャであるスパースクエリアテンション(SQA)について紹介する。
モデル事前トレーニング、微調整、エンコーダベースのタスクなど、計算バウンドシナリオで最大3倍のスループット向上を実現することができる。
SQAは、近くリリースされるReactive Transformerアーキテクチャの開発において、極めて重要視された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer architecture, underpinned by the Multi-Head Attention (MHA) mechanism, has become the de facto standard for state-of-the-art models in artificial intelligence. However, the quadratic computational complexity of MHA with respect to sequence length presents a significant barrier to scaling, particularly for applications involving long contexts. Prevailing solutions, such as Multi-Query Attention (MQA) and Grouped-Query Attention (GQA), have effectively addressed the memory bandwidth bottleneck that dominates autoregressive inference latency by sharing Key and Value projections. While highly successful, these methods do not reduce the fundamental number of floating-point operations (FLOPs) required for the attention score computation, which remains a critical bottleneck for training and full-sequence processing. This paper introduces Sparse Query Attention (SQA), a novel attention architecture that pursues an alternative and complementary optimization path. Instead of reducing Key/Value heads, SQA reduces the number of Query heads. This architectural modification directly decreases the computational complexity of the attention mechanism by a factor proportional to the reduction in query heads, thereby lowering the overall FLOPs. This work presents the theoretical foundation of SQA, its mathematical formulation, and a family of architectural variants. Empirical benchmarks on long sequences (32k-200k tokens) demonstrate that SQA can achieve significant throughput improvements of up to 3x in computation-bound scenarios such as model pre-training, fine-tuning, and encoder-based tasks, with only a minimal impact on model quality in preliminary smallscale experiments. SQA was discovered serendipitously during the development of the upcoming Reactive Transformer architecture, suggesting its potential as a powerful tool for building more efficient and scalable models
- Abstract(参考訳): マルチヘッドアテンション(MHA)機構を基盤とするTransformerアーキテクチャは、人工知能における最先端モデルのデファクトスタンダードとなっている。
しかし、シーケンス長に関するMHAの二次計算複雑性は、特に長いコンテキストを含むアプリケーションにおいて、スケーリングにおいて大きな障壁となる。
MQA(Multi-Query Attention)やGQA(Grouped-Query Attention)といった一般的なソリューションは、キーとバリューのプロジェクションを共有することで自動回帰推論遅延を支配するメモリ帯域幅のボトルネックに効果的に対処しています。
高い成功にもかかわらず、これらの手法は、注意点計算に必要な浮動小数点演算(FLOP)の基本的な数を減らさない。
本稿では,新しいアテンションアーキテクチャであるスパースクエリアテンション(SQA)について紹介する。
キー/バリューヘッダを減らす代わりに、SQAはクエリヘッダの数を減らす。
このアーキテクチャ変更により、クエリヘッドの削減に比例する因子によって、アテンション機構の計算複雑性が直接減少し、全体的なFLOPが低下する。
この研究は、SQAの理論的基礎、数学的定式化、およびアーキテクチャ的変種群を提示する。
長いシーケンス(32k-200kトークン)に関する実証的なベンチマークでは、SQAはモデル事前トレーニング、微調整、エンコーダベースのタスクといった計算バウンドシナリオで最大3倍のスループットを達成でき、予備的な小規模実験ではモデル品質に最小限の影響しか与えないことを示した。
SQAは、近くリリースされるReactive Transformerアーキテクチャの開発で、より効率的でスケーラブルなモデルを構築するための強力なツールとしての可能性を示している。
関連論文リスト
- MEC-Quant: Maximum Entropy Coding for Extremely Low Bit Quantization-Aware Training [15.099918961133866]
QAT(Quantization-Aware Training)は、効率的なニューラルネットワークを生み出すために多くの注目を集めている。
量子化は必然的に学習表現にバイアスをもたらす、と我々は主張する。
本稿ではエントロピー符号化量子化(MEC-Quant)を提案する。
論文 参考訳(メタデータ) (2025-09-19T01:37:02Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Hierarchical Reasoning Model [16.223136644998203]
HRMは、中間プロセスの明示的な監督なしに、1つのフォワードパスでシーケンシャルな推論タスクを実行する。
2700万のパラメータしか持たず、HRMは1000のトレーニングサンプルのみを使用して複雑な推論タスクで例外的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-26T19:39:54Z) - Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。
モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。
また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文 参考訳(メタデータ) (2025-05-08T00:08:31Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - Tensor Product Attention Is All You Need [53.69820973900921]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
TPAに基づいて、シーケンスモデリングのための新しいモデルアーキテクチャであるProduct Attention Transformer(T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - MQRetNN: Multi-Horizon Time Series Forecasting with Retrieval
Augmentation [1.8692254863855964]
マルチホライゾン確率的時系列予測は、需要予測のような現実世界のタスクに広く適用可能である。
ニューラルネットワークの時系列予測における最近の研究は、主にSeq2Seqアーキテクチャの使用に焦点を当てている。
本稿では,クロスエンタリティ情報を導入してモデル性能を向上させることを目的として,クロスエンタリティアテンション機構と,どのエンティティを参加させるかを選択する検索機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T14:51:58Z) - Scaling Quantum Approximate Optimization on Near-term Hardware [49.94954584453379]
我々は、様々なレベルの接続性を持つハードウェアアーキテクチャのための最適化回路により、期待されるリソース要求のスケーリングを定量化する。
問題の大きさと問題グラフの次数で指数関数的に増大する。
これらの問題は、ハードウェア接続性の向上や、より少ない回路層で高い性能を達成するQAOAの変更によって緩和される可能性がある。
論文 参考訳(メタデータ) (2022-01-06T21:02:30Z) - Transformer-based Machine Learning for Fast SAT Solvers and Logic
Synthesis [63.53283025435107]
CNFベースのSATとMaxSATは論理合成と検証システムの中心である。
そこで本研究では,Transformerアーキテクチャから派生したワンショットモデルを用いて,MaxSAT問題の解法を提案する。
論文 参考訳(メタデータ) (2021-07-15T04:47:35Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。