論文の概要: ProxyAttn: Guided Sparse Attention via Representative Heads
- arxiv url: http://arxiv.org/abs/2509.24745v1
- Date: Mon, 29 Sep 2025 13:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.996655
- Title: ProxyAttn: Guided Sparse Attention via Representative Heads
- Title(参考訳): ProxyAttn:代表者によるスパース注意ガイド
- Authors: Yixuan Wang, Huang He, Siqi Bao, Hua Wu, Haifeng Wang, Qingfu Zhu, Wanxiang Che,
- Abstract要約: より正確なブロック推定を実現する訓練不要なスパースアテンションアルゴリズムであるProxyAttnを提案する。
本稿では,ProxyAttnが最大10.3倍の注意加速度と2.4倍の事前充足加速度を実現できることを示す。
- 参考スコア(独自算出の注目度): 59.03412871683236
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The quadratic complexity of attention mechanisms limits the efficiency of Large Language Models (LLMs) on long-text tasks. Recently, methods that dynamically estimate block importance have enabled efficient block sparse attention, leading to significant acceleration in long-text pre-filling of LLMs. However, their coarse-grained estimation inevitably leads to performance degradation at high sparsity rates. In this work, we propose ProxyAttn, a training-free sparse attention algorithm that achieves more precise block estimation by compressing the dimension of attention heads. Based on our observation of the similarity among multiple attention heads, we use the scores of pooled representative heads to approximate the scores for all heads. To account for the varying sparsity among heads, we also propose a block-aware dynamic budget estimation method. By combining the scores from representative proxy heads with multi-head dynamic budgets, we achieve a more fine-grained block importance evaluation at low computational cost. Experiments on a variety of mainstream models and extensive benchmarks confirm the underlying similarity among attention heads. Leveraging a fine-grained estimation, the proposed method achieves substantial gains in performance and efficiency compared to existing methods. More precisely, ProxyAttn can achieve up to 10.3x attention acceleration and 2.4x prefilling acceleration without significant performance loss. Our code is available at https://github.com/wyxstriker/ProxyAttn.
- Abstract(参考訳): 注意機構の二次的な複雑さは、長文タスクにおけるLarge Language Models(LLM)の効率を制限する。
近年,ブロックの重要度を動的に推定する手法により,ブロックスパース注意の効率が向上し,LLMの長文前処理の高速化が図られている。
しかし、その粗粒度推定は必然的に高い疎性率で性能劣化を引き起こす。
本研究では,注意ヘッドの次元を圧縮することにより,より正確なブロック推定を実現する訓練不要なスパースアテンションアルゴリズムであるProxyAttnを提案する。
複数の注目ヘッド間の類似点の観測に基づいて、プールされた代表ヘッドのスコアを用いて、すべてのヘッドのスコアを近似する。
また,頭部のばらつきを考慮し,ブロック対応の動的予算推定手法を提案する。
代表的プロキシヘッドからのスコアとマルチヘッド動的予算を組み合わせることで、よりきめ細かなブロック重要度を低コストで評価する。
様々な主流モデルと広範囲なベンチマークの実験は、注目の頭の中で根底にある類似性を確認する。
提案手法は, 従来の手法と比較して, 性能と効率の大幅な向上を実現している。
より正確には、ProxyAttnは最大10.3倍の注意加速と2.4倍の事前充填加速を性能損失なく達成できる。
私たちのコードはhttps://github.com/wyxstriker/ProxyAttn.comで利用可能です。
関連論文リスト
- SAS: Simulated Attention Score [75.1409882298863]
我々は,多数の注目ヘッドと1頭あたりの隠れ特徴次元をシミュレートしながら,コンパクトなモデルサイズを維持するSAS(Simulated Attention Score)を導入する。
各種データセットとタスクに関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-07-10T12:16:16Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - Accelerating Prefilling for Long-Context LLMs via Sparse Pattern Sharing [4.7924863950812995]
スパースアテンション手法は、長文推論のプレフィルフェーズを高速化するために、注意対象の空間性を利用する。
本稿では,頭部に共通する類似の注意パターンを共有する,高精度なスパースアテンション機構を提案する。
本手法は,少数の頭部のみに注意を払いながら,実際のパターンを効果的に把握する。
論文 参考訳(メタデータ) (2025-05-26T06:48:53Z) - ProgRoCC: A Progressive Approach to Rough Crowd Counting [66.09510514180593]
私たちはRough Crowd Countingというラベルを付け、取得が容易なトレーニングデータに基づいて精度を向上します。
本稿では,ProgRoCCと呼ばれるCLIPに基づく大群カウント問題に対するアプローチを提案する。
具体的には、粗大なアプローチによってオブジェクト数を決定するプログレッシブな推定学習戦略を導入する。
論文 参考訳(メタデータ) (2025-04-18T01:57:42Z) - XAttention: Block Sparse Attention with Antidiagonal Scoring [10.517760961650279]
LCTM(Long-context Transformer Models)は、現実世界のアプリケーションには不可欠であるが、注意の2次複雑さのために計算コストが高い。
本稿では,Sparse attention を用いてトランスフォーマーモデルにおける長文推論を劇的に高速化するプラグイン・アンド・プレイフレームワーク XAttention を紹介する。
論文 参考訳(メタデータ) (2025-03-20T17:59:58Z) - ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。
実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2~10倍に向上することを示した。
論文 参考訳(メタデータ) (2024-10-23T15:24:54Z) - Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference [1.0919012968294923]
本稿では,頭部の疎度を用いてトランスフォーマーを高速化し,疎度をブロックし,注意の計算を減らし,メモリアクセスを減らし,新しいアルゴリズムアーキテクチャの共設計手法を提案する。
注目スコアと注目ヘッドの巨大な冗長性を観測し、実行時に注目行列内の重要でないブロックをプルーする整数ベースの行平衡ブロックプルーニングを提案する。
また、実行時に重要でないヘッドを検出およびプルーする整数ベースのヘッドプルーニングを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:15:16Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。