論文の概要: TriangleMix: Accelerating Prefilling via Decoding-time Contribution Sparsity
- arxiv url: http://arxiv.org/abs/2507.21526v2
- Date: Sat, 11 Oct 2025 09:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:09.033544
- Title: TriangleMix: Accelerating Prefilling via Decoding-time Contribution Sparsity
- Title(参考訳): TriangleMix:デコード時のコントリビューションスパシティによるプレフィルの高速化
- Authors: Zhiyuan He, Yike Zhang, Chengruidong Zhang, Huiqiang Jiang, Yuqing Yang, Lili Qiu,
- Abstract要約: トレーニング不要な静的アテンションパターンであるTriangleMixを提案する。
128Kの入力に対して、Triangle attentionは注意計算の15.3倍の高速化を実現し、典型的なダイナミックスパース法の高速化をはるかに上回っている。
- 参考スコア(独自算出の注目度): 20.10635384170165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) incur quadratic attention complexity with input length, creating a major time bottleneck in the prefilling stage. Existing acceleration methods largely exploit attention score sparsity by estimating blocks with high attention scores and applying dynamic sparse attention. In this work, we identify another untapped form of sparsity in the prefilling stage, namely decoding-time contribution sparsity, where many attention blocks exhibit nontrivial attention scores during prefilling yet contribute negligibly to subsequent decoding, as indicated by gradient-based analysis. Building on this observation, we propose TriangleMix, a training-free static attention pattern that uses dense attention in a subset of layers and switches to Triangle attention in the others. Extensive experiments show that TriangleMix preserves nearly lossless performance relative to dense attention while substantially reducing attention overhead in Triangle layers. For 128K inputs, Triangle attention achieves a 15.3x speedup in attention computation, significantly exceeding the acceleration of typical dynamic sparse methods (1.9x to 3.4x). Furthermore, TriangleMix can be seamlessly combined with dynamic sparsity approaches, delivering an additional 6% to 19% reduction in TTFT over using dynamic sparsity alone.
- Abstract(参考訳): 大規模言語モデル(LLM)は入力長と2次的注意の複雑さを生じさせ、準備段階において大きな時間的ボトルネックを生み出します。
既存の加速度法は, 注目度の高いブロックを推定し, 動的スパースアテンションを適用することにより, 注目スコアの空間性を大いに活用する。
本研究は, 未完成の余剰空間, すなわちデコード時寄与空間, 多くの注意ブロックが前処理中に非自明な注意スコアを示すが, 勾配解析により示されるように, その後のデコードに無視的に寄与する。
この観測に基づいてTriangleMixを提案する。TriangleMixはトレーニング不要な静的アテンションパターンで、レイヤのサブセットに高密度アテンションを使用し、他の部分ではTriangleアテンションに切り替える。
広汎な実験により、TriangleMixは、高密度の注意に対してほぼ損失のない性能を保ちながら、Triangle層のオーバーヘッドを大幅に低減していることが示された。
128Kの入力に対して、Triangle attentionは注意計算の15.3倍の高速化を実現し、典型的なダイナミックスパース法(1.9倍から3.4倍)の加速度をはるかに上回っている。
さらに、TriangleMixは動的スパーシリティアプローチとシームレスに結合することができ、動的スパーシリティのみを使用するよりも、TTFTを6%から19%削減することができる。
関連論文リスト
- SLA2: Sparse-Linear Attention with Learnable Routing and QAT [86.22100800353991]
SLA2は97%の注意空間を達成でき、世代品質を維持しつつ18.6倍の注意速度を達成できることを示す。
実験の結果、SLA2は97%の注意範囲を達成でき、世代品質を維持しながら18.6倍の注意速度を達成できることが示された。
論文 参考訳(メタデータ) (2026-02-13T07:16:02Z) - Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference [54.467557491325046]
本稿では,注意スコアの前にKVエントリを選択し,明示的な精度制御を行うプリホックスパシティ(PrHS)を提案する。
PrHSは検索オーバーヘッドを90%以上削減し、HShareよりも3倍高い精度で検索できる。
これはLongBenchの平均劣化率を1%以下に抑え、FLOPを約15%減らし、9.9倍のレイテンシと2.8倍のスループットを得る。
論文 参考訳(メタデータ) (2026-02-09T07:05:23Z) - Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection [13.937483869660648]
トークンスパース注意(Token Sparse Attention)は、トークン単位のスペーシフィケーション機構で、注意中のトークンセットの削減に、ヘッドあたりの$Q$, $K$, $V$を圧縮する。
Token Sparse Attention は精度とレイテンシのトレードオフを常に改善し、128Kコンテキストで最大$$3.23のアテンションスピードアップを実現し、精度を1%以下に抑える。
論文 参考訳(メタデータ) (2026-02-03T07:31:14Z) - Alleviating Forgetfulness of Linear Attention by Hybrid Sparse Attention and Contextualized Learnable Token Eviction [12.740812798007573]
有限メモリは、検索集約的なタスクに害を与える忘れやすさを誘導する。
過去のトークンへの直接アクセスを復元する一連のハイブリッドモデルについて検討する。
本稿では,新しい学習可能なトークン消去手法を提案する。
論文 参考訳(メタデータ) (2025-10-23T17:53:03Z) - ProxyAttn: Guided Sparse Attention via Representative Heads [59.03412871683236]
より正確なブロック推定を実現する訓練不要なスパースアテンションアルゴリズムであるProxyAttnを提案する。
本稿では,ProxyAttnが最大10.3倍の注意加速度と2.4倍の事前充足加速度を実現できることを示す。
論文 参考訳(メタデータ) (2025-09-29T13:10:39Z) - SALE : Low-bit Estimation for Efficient Sparse Attention in Long-context LLM Prefilling [24.241825495462397]
既存のスパースアテンション手法は、アテンションマップの少ない領域をスキップすることで、アテンション計算を加速する。
モデル精度を損なうことなくLLMの長文プリフィルステージを高速化する細粒度アテンション手法であるSALEを提案する。
SALEはLlama-3.1-8Bで64Kより長いシーケンスで3.36倍のスピードアップを実現し、モデル品質を維持している。
論文 参考訳(メタデータ) (2025-05-30T03:40:24Z) - AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity [9.63873831179673]
拡張コンテキスト長を持つ大規模言語モデル(LLM)は、事前充足フェーズにおいて重大な計算上の課題に直面します。
重要な注意領域を効率よく識別する,差認識型動的スパースアテンション機構である textbfAnchorAttention を提案する。
textbfAnchorAttentionは、粒度の細かいスペーシング戦略により、同じリコールレベルでより高いスペーサ率を実現し、計算時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-05-29T14:59:06Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
超長い文脈(テキスト長 >128K)の補間は、大きな言語モデル(LLM)にとって大きな課題である。
本研究では,メモリボトルネックを効果的に克服する並列長コンテキスト圧縮手法であるParallelCompを提案する。
チャンクスループットが1.76倍向上し、プリフィル段階では23.50倍の高速化を実現し、性能損失を無視できる。
論文 参考訳(メタデータ) (2025-02-20T07:10:43Z) - SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。
実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文 参考訳(メタデータ) (2024-12-09T04:27:03Z) - MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。
我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文 参考訳(メタデータ) (2024-07-02T17:59:56Z) - HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。
実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。
各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文 参考訳(メタデータ) (2023-10-09T17:05:25Z) - SEA: Sparse Linear Attention with Estimated Attention Mask [51.22399593954608]
長い連続性は、注意操作の二次的な複雑さのために問題を引き起こす。
従来の研究は、注意行列をスパース化または線形に近似することで複雑さを低下させることを目的としていた。
推定アテンションマスクを用いたSparse linear attentionを提案する。
論文 参考訳(メタデータ) (2023-10-03T03:56:26Z) - Faster Causal Attention Over Large Sequences Through Sparse Flash
Attention [45.18552512844457]
FlashAttentionを拡張して、大量の注目空間パターンに対応します。
変換言語モデルのトレーニング速度を、それぞれ$2.0times$と$3.3times$で、それぞれ$8k$と$16k$のシーケンスで増加します。
論文 参考訳(メタデータ) (2023-06-01T21:33:59Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。