Fugu-MT 論文翻訳(概要): TriangleMix: A Lossless and Efficient Attention Pattern for Long Context Prefilling

論文の概要: TriangleMix: A Lossless and Efficient Attention Pattern for Long Context Prefilling

arxiv url: http://arxiv.org/abs/2507.21526v1
Date: Tue, 29 Jul 2025 06:28:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 17:08:55.759136
Title: TriangleMix: A Lossless and Efficient Attention Pattern for Long Context Prefilling
Title（参考訳）: TriangleMix: 長期保存のための無意味で効率的な注意パターン
Authors: Zhiyuan He, Yike Zhang, Chengruidong Zhang, Huiqiang Jiang, Yuqing Yang, Lili Qiu,
Abstract要約: TriangleMixは、大規模言語モデルのトレーニング不要な静的アテンションパターンである。深い層では、オーバーヘッドを3.7倍から15.3倍に減らす。ダイナミックなスパーシティ法とシームレスに統合して、さらなるスピードアップを実現することができる。
参考スコア（独自算出の注目度）: 10.913197088408443
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) rely on attention mechanisms whose time complexity grows quadratically with input sequence length, creating significant computational bottlenecks during the prefilling stage. Existing static sparse attention methods typically degrade accuracy, while dynamic sparsity methods introduce additional computational overhead due to runtime sparse index estimation. To address these limitations, we propose TriangleMix, a novel training-free static attention pattern. TriangleMix employs dense attention in shallow layers and switches to a triangle-shaped sparse pattern in deeper layers. Extensive experiments demonstrate that TriangleMix reduces attention overhead by 3.7x to 15.3x in deep layers, and decreases overall Time-to-First-Token (TTFT) by 12% to 32% for sequence lengths ranging from 32K to 128K, without sacrificing model accuracy. Moreover, TriangleMix can be seamlessly integrated with dynamic sparsity methods to achieve further speedup, e.g. accelerating MInference by 19% at 128K, highlighting its potential to enhance LLM inference efficiency.
Abstract（参考訳）: LLM(Large Language Models)は、入力シーケンスの長さとともに時間複雑性が2次的に増加する注意機構に依存しており、プリフィルの段階で計算のボトルネックを生じさせる。既存の静的スパースアテンション手法は一般に精度を低下させるが、動的スパース法は実行時スパースインデックス推定による計算オーバーヘッドを増大させる。これらの制約に対処するため,新しいトレーニング不要な静的アテンションパターンであるTriangleMixを提案する。 TriangleMixは浅い層に注意を集中させ、より深い層に三角形のようなスパースパターンに切り替える。大規模な実験により、TriangleMixは深層層での注意のオーバーヘッドを3.7倍から15.3倍に減らし、モデル精度を犠牲にすることなく、32Kから128Kまでのシーケンス長に対してTTFT(Time-to-First-Token)全体の12%から32%に減らした。さらに、TriangleMixはダイナミックなスパーシリティメソッドとシームレスに統合して、さらに高速化することができる。例えば、128KでMInferenceを19%高速化し、LSM推論効率を高める可能性を強調している。

関連論文リスト

SALE : Low-bit Estimation for Efficient Sparse Attention in Long-context LLM Prefilling [24.241825495462397]
既存のスパースアテンション手法は、アテンションマップの少ない領域をスキップすることで、アテンション計算を加速する。モデル精度を損なうことなくLLMの長文プリフィルステージを高速化する細粒度アテンション手法であるSALEを提案する。 SALEはLlama-3.1-8Bで64Kより長いシーケンスで3.36倍のスピードアップを実現し、モデル品質を維持している。
論文参考訳（メタデータ） (2025-05-30T03:40:24Z)
AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity [9.63873831179673]
拡張コンテキスト長を持つ大規模言語モデル(LLM)は、事前充足フェーズにおいて重大な計算上の課題に直面します。重要な注意領域を効率よく識別する,差認識型動的スパースアテンション機構である textbfAnchorAttention を提案する。 textbfAnchorAttentionは、粒度の細かいスペーシング戦略により、同じリコールレベルでより高いスペーサ率を実現し、計算時間を著しく短縮する。
論文参考訳（メタデータ） (2025-05-29T14:59:06Z)
Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。 1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文参考訳（メタデータ） (2025-05-16T13:48:33Z)
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。 SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文参考訳（メタデータ） (2025-05-10T17:15:49Z)
Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文参考訳（メタデータ） (2025-03-13T03:56:22Z)
ParallelComp: Parallel Long-Context Compressor for Length Extrapolation [51.68913021512016]
超長い文脈(テキスト長 >128K)の補間は、大きな言語モデル(LLM)にとって大きな課題である。本研究では,メモリボトルネックを効果的に克服する並列長コンテキスト圧縮手法であるParallelCompを提案する。チャンクスループットが1.76倍向上し、プリフィル段階では23.50倍の高速化を実現し、性能損失を無視できる。
論文参考訳（メタデータ） (2025-02-20T07:10:43Z)
SparseAccelerate: Efficient Long-Context Inference for Mid-Range GPUs [0.0]
SparseAccelerateは動的スパースアテンション手法であり、入力特性に基づいてその疎度パターンを適応する。実験結果から,SparseAccelerateは最大1.04倍のTTTF遅延を32Kトークンで達成した。
論文参考訳（メタデータ） (2024-12-09T04:27:03Z)
MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文参考訳（メタデータ） (2024-07-02T17:59:56Z)
HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文参考訳（メタデータ） (2023-10-09T17:05:25Z)
Quantized Neural Networks for Low-Precision Accumulation with Guaranteed Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文参考訳（メタデータ） (2023-01-31T02:46:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。