論文の概要: Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference
- arxiv url: http://arxiv.org/abs/2604.07394v1
- Date: Wed, 08 Apr 2026 07:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.442817
- Title: Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference
- Title(参考訳): Flux Attention: 効率的なLLM推論のためのコンテキスト認識ハイブリッドアテンション
- Authors: Quantong Qiu, Zhiyi Hong, Yi Yang, Haitian Wang, Kebin Liu, Qingqing Dang, Juntao Li, Min Zhang,
- Abstract要約: レイヤレベルでの注意を動的に最適化するコンテキスト対応フレームワークであるFlux Attentionを紹介します。
パラメータ効率のよいアプローチとして、我々のフレームワークは8$times$A800 GPU上でのトレーニングにわずか12時間しかかからない。
本フレームワークは,プリフィルおよびデコード段階において,最大2.8times$および2.0times$の速度改善を施したベースラインモデルと比較して,性能と推論速度のトレードオフを良好に実現している。
- 参考スコア(独自算出の注目度): 36.81958522560282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic computational complexity of standard attention mechanisms presents a severe scalability bottleneck for LLMs in long-context scenarios. While hybrid attention mechanisms combining Full Attention (FA) and Sparse Attention (SA) offer a potential solution, existing methods typically rely on static allocation ratios that fail to accommodate the variable retrieval demands of different tasks. Furthermore, head-level dynamic sparsity often introduces severe computational load imbalance and synchronization long-tails, which hinder hardware acceleration during autoregressive decoding. To bridge this gap, we introduce Flux Attention, a context-aware framework that dynamically optimizes attention computation at the layer level. By integrating a lightweight Layer Router into frozen pretrained LLMs, the proposed method adaptively routes each layer to FA or SA based on the input context. This layer-wise routing preserves high-fidelity information retrieval while ensuring contiguous memory access, translating theoretical computational reductions into practical wall-clock speedups. As a parameter-efficient approach, our framework requires only 12 hours of training on 8$\times$A800 GPUs. Extensive experiments across multiple long-context and mathematical reasoning benchmarks demonstrate that Flux Attention achieves a superior trade-off between performance and inference speed compared with baseline models, with speed improvements of up to $2.8\times$ and $2.0\times$ in the prefill and decode stages.
- Abstract(参考訳): 標準注意機構の2次計算複雑性は、長期コンテキストシナリオにおけるLLMの大幅なスケーラビリティボトルネックを示す。
フルアテンション(FA)とスパースアテンション(SA)を組み合わせたハイブリッドアテンション機構は潜在的な解決策を提供するが、既存の手法は、通常、異なるタスクの可変検索要求に対応できない静的アロケーション比に依存している。
さらに、ヘッドレベルの動的疎結合は、しばしば重大な計算負荷不均衡と同期長テールを導入し、自動回帰復号時のハードウェアアクセラレーションを阻害する。
このギャップを埋めるために、レイヤレベルでの注意計算を動的に最適化するコンテキスト対応フレームワークであるFlux Attentionを紹介します。
軽量なレイヤルータを凍結事前学習したLCMに統合することにより、入力コンテキストに基づいて各レイヤをFAまたはSAに適応的にルーティングする。
この階層的ルーティングは、連続したメモリアクセスを確保しつつ、高忠実度情報検索を保存し、理論計算の削減を実用的なウォールクロックスピードアップに変換する。
パラメータ効率のよいアプローチとして、我々のフレームワークは8$\times$A800 GPU上でのトレーニングにわずか12時間しかかからない。
複数の長期コンテキストと数学的推論のベンチマークによる大規模な実験により、Flux Attentionはベースラインモデルよりも性能と推論速度のトレードオフが優れていることが示され、プリフィルおよびデコード段階では最高2.8\times$と$2.0\times$が改善された。
関連論文リスト
- Expert Streaming: Accelerating Low-Batch MoE Inference via Multi-chiplet Architecture and Dynamic Expert Trajectory Scheduling [29.998645673111536]
Mixture-of-Expertsは、ローバッチ推論を備えたエッジAIの有望なアプローチである。
MoEのスパーシリティと動的ゲーティングシフト 分散戦略は、より微細なランタイムの粒度に向かっている。
Fully Sharded Expert Data Parallelismは、低バッチのMoE計算用に特別に設計された並列化パラダイムである。
論文 参考訳(メタデータ) (2026-03-29T10:44:55Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。
エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文 参考訳(メタデータ) (2024-11-20T19:44:26Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。
提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文 参考訳(メタデータ) (2024-03-13T16:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。