論文の概要: Optimizing Mixture of Block Attention
- arxiv url: http://arxiv.org/abs/2511.11571v1
- Date: Fri, 14 Nov 2025 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.769559
- Title: Optimizing Mixture of Block Attention
- Title(参考訳): ブロック注意の混合の最適化
- Authors: Guangxuan Xiao, Junxian Guo, Kasra Mazaheri, Song Han,
- Abstract要約: 我々は,MoBAの基盤となる力学を統計的に解析するモデルを開発した。
ブロックサイズを小さくし、キーに短い畳み込みを適用して関連する信号をクラスタ化する。
我々は,ハードウェア対応カーネルであるFlashMoBAを紹介した。
- 参考スコア(独自算出の注目度): 12.276306440688137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of Block Attention (MoBA) (Lu et al., 2025) is a promising building block for efficiently processing long contexts in LLMs by enabling queries to sparsely attend to a small subset of key-value blocks, drastically reducing computational cost. However, the design principles governing MoBA's performance are poorly understood, and it lacks an efficient GPU implementation, hindering its practical adoption. In this paper, we first develop a statistical model to analyze MoBA's underlying mechanics. Our model reveals that performance critically depends on the router's ability to accurately distinguish relevant from irrelevant blocks based on query-key affinities. We derive a signal-to-noise ratio that formally connects architectural parameters to this retrieval accuracy. Guided by our analysis, we identify two key pathways for improvement: using smaller block sizes and applying a short convolution on keys to cluster relevant signals, which enhances routing accuracy. While theoretically better, small block sizes are inefficient on GPUs. To bridge this gap, we introduce FlashMoBA, a hardware-aware CUDA kernel that enables efficient MoBA execution even with the small block sizes our theory recommends. We validate our insights by training LLMs from scratch, showing that our improved MoBA models match the performance of dense attention baselines. FlashMoBA achieves up to 14.7x speedup over FlashAttention-2 for small blocks, making our theoretically-grounded improvements practical. Code is available at: https://github.com/mit-han-lab/flash-moba.
- Abstract(参考訳): Mixture of Block Attention (MoBA) (Lu et al , 2025)は、LLMの長いコンテキストを効率的に処理するための有望なビルディングブロックである。
しかし、MoBAのパフォーマンスを規定する設計原則はあまり理解されておらず、効率的なGPU実装が欠如しており、その実践的な採用を妨げる。
本稿ではまず,MoBAの基盤となる力学を統計モデルで解析する。
提案モデルでは,クエリキー親和性に基づく無関係なブロックと関係のあるブロックを正確に区別するルータの能力に,性能が極めて依存していることを明らかにする。
アーキテクチャパラメータをこの検索精度に正式に接続する信号対雑音比を導出する。
分析により,ブロックサイズを小さくし,鍵に短い畳み込みを施すことで,ルーティングの精度が向上する。
理論的には優れているが、GPUでは小さなブロックサイズは非効率である。
このギャップを埋めるため,ハードウェア対応のCUDAカーネルであるFlashMoBAを導入する。
我々は,LLMをスクラッチからトレーニングすることで洞察を検証し,改良したMoBAモデルが高密度注意ベースラインの性能と一致することを示した。
FlashMoBAは、小さなブロックに対して、FlashAttention-2よりも14.7倍のスピードアップを実現し、理論的に基礎的な改善を実現しています。
コードは、https://github.com/mit-han-lab/flash-moba.comで入手できる。
関連論文リスト
- Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。
具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。
次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文 参考訳(メタデータ) (2025-07-11T17:28:56Z) - FlashMoE: Fast Distributed MoE in a Single Kernel [1.866526462692252]
FlashMoEは、専門家の計算とGPU間通信を単一の永続GPUカーネルに融合する、完全にGPU対応のMoE演算子である。
我々は、FlashMoEがGPU利用率を最大9倍、レイテンシを6倍、スループットを5.7倍、オーバーラップ効率を最先端のベースラインに比べて4倍向上することを示した。
論文 参考訳(メタデータ) (2025-06-05T06:29:14Z) - MoBA: Mixture of Block Attention for Long-Context LLMs [46.10222520755179]
汎用人工知能(AGI)に向けた大規模言語モデル(LLM)の進展に有効な文脈長のスケーリングが不可欠である
既存のアプローチでは、タスク固有のシンクやウィンドウアテンションなどの強いバイアスのある構造を課すか、あるいは、アテンションメカニズムを線形近似に根本的に変更する。
そこで本研究では,より少ない構造原理に固執する解を提案し,モデルが自律的に出席する場所を決定する。
論文 参考訳(メタデータ) (2025-02-18T14:06:05Z) - LowFormer: Hardware Efficient Design for Convolutional Transformer Backbones [10.435069781620957]
効率的な視覚バックボーンの研究は、畳み込みとトランスフォーマーブロックの混合モデルに進化しつつある。
我々は、MACではなく、実際のスループットとレイテンシの観点から、一般的なモジュールとアーキテクチャ設計の選択を分析します。
マクロデザインとマイクロデザインを組み合わせることで,LowFormerと呼ばれる,ハードウェア効率のよいバックボーンネットワークの新たなファミリを作ります。
論文 参考訳(メタデータ) (2024-09-05T12:18:32Z) - Mamba YOLO: A Simple Baseline for Object Detection with State Space Model [10.44725284994877]
YOLOシリーズは、リアルタイムオブジェクト検出のための新しいベンチマークを設定した。
トランスフォーマーベースの構造が、最も強力なソリューションとして登場した。
しかし、自己注意機構の二次的な複雑さは計算負担を増加させる。
簡単なが効果的なベースラインアプローチであるYolo Mambaを紹介する。
論文 参考訳(メタデータ) (2024-06-09T15:56:19Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。