論文の概要: The New LLM Bottleneck: A Systems Perspective on Latent Attention and Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2507.15465v1
- Date: Mon, 21 Jul 2025 10:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.354199
- Title: The New LLM Bottleneck: A Systems Perspective on Latent Attention and Mixture-of-Experts
- Title(参考訳): LLM Bottleneck: 潜入注意と試験の混合に関するシステム展望
- Authors: Sungmin Yun, Seonyong Park, Hwayong Nam, Younjoo Lee, Gunjun Lee, Kwanhee Kyung, Sangpyo Kim, Nam Sung Kim, Jongmin Kim, Hyungyo Kim, Juhwan Cho, Seungmin Baek, Jung Ho Ahn,
- Abstract要約: 本稿では,近年のアーキテクチャシフト,すなわちMLA(Multi-head Latent Attention)とMixture-of-Experts(Mixture-of-Experts)が,特殊注意ハードウェアの前提に挑戦していることを論じる。
次世代トランスフォーマーにおける中心的な課題は、もはや単一のメモリバウンド層を加速させることではない。
代わりに、大規模モデルの多様な要求を管理するために、十分なメモリ容量、メモリ帯域幅、高帯域相互接続を備えたバランスのとれたシステムの設計に焦点を移さなければならない。
- 参考スコア(独自算出の注目度): 5.10053312713569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational workloads composing traditional Transformer models are starkly bifurcated. Multi-Head Attention (MHA) is memory-bound, with low arithmetic intensity, while feedforward layers are compute-bound. This dichotomy has long motivated research into specialized hardware to mitigate the MHA bottleneck. This paper argues that recent architectural shifts, namely Multi-head Latent Attention (MLA) and Mixture-of-Experts (MoE), challenge the premise of specialized attention hardware. We make two key observations. First, the arithmetic intensity of MLA is over two orders of magnitude greater than that of MHA, shifting it close to a compute-bound regime well-suited for modern accelerators like GPUs. Second, by distributing MoE experts across a pool of accelerators, their arithmetic intensity can be tuned through batching to match that of the dense layers, creating a more balanced computational profile. These findings reveal a diminishing need for specialized attention hardware. The central challenge for next-generation Transformers is no longer accelerating a single memory-bound layer. Instead, the focus must shift to designing balanced systems with sufficient compute, memory capacity, memory bandwidth, and high-bandwidth interconnects to manage the diverse demands of large-scale models.
- Abstract(参考訳): 従来のTransformerモデルを構成する計算ワークロードは、非常に二重化されている。
MHA(Multi-Head Attention)はメモリバウンドであり、演算強度は低く、フィードフォワード層は計算バウンドである。
この二分法は長い間、MHAボトルネックを軽減するための特別なハードウェアの研究を動機付けてきた。
本稿では,近年のアーキテクチャシフト,すなわちMLA(Multi-head Latent Attention)とMixture-of-Experts(Mixture-of-Experts)が,特殊注意ハードウェアの前提に挑戦していることを論じる。
私たちは2つの重要な観察をします。
第一に、MLAの算術強度は、MHAよりも2桁以上大きく、GPUのような現代の加速器によく適合する計算バウンド状態に近づいた。
第二に、MoEの専門家をアクセラレーターのプールに分散させることで、それらの算術強度をバッチ処理によって調整し、よりバランスの取れた計算プロファイルを作成することができる。
これらの結果は、特別な注意ハードウェアの必要性が減っていることを示している。
次世代トランスフォーマーにおける中心的な課題は、もはや単一のメモリバウンド層を加速するものではない。
代わりに、大規模モデルの多様な要求を管理するために、十分な計算量、メモリ容量、メモリ帯域幅、高帯域相互接続を備えたバランスのとれたシステムの設計に焦点を移さなければならない。
関連論文リスト
- L3: DIMM-PIM Integrated Architecture and Coordination for Scalable Long-Context LLM Inference [6.886434948681708]
大きな言語モデル(LLM)では、長いテキストシーケンスの処理がますます必要になるが、GPUメモリの制限により、メモリ容量と帯域幅のトレードオフが困難になる。
重要なメモリボトルネックは、マルチヘッドアテンションの復号フェーズにある。
本稿では,DIMM-PIMとGPUデバイスを統合したハードウェア・ソフトウェア共同設計システムであるL3を提案する。
論文 参考訳(メタデータ) (2025-04-24T14:14:07Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - Towards 3D Acceleration for low-power Mixture-of-Experts and Multi-Head Attention Spiking Transformers [5.1210823165448]
Spiking Neural Networks(SNN)は、エネルギー効率のよいディープラーニングを解き放つ上で重要な、脳にインスパイアされたイベント駆動のメカニズムを提供する。
本稿では,Mixture-of-ExpertsとMulti-Head Attention Spiking Transformerの最初の3Dハードウェアアーキテクチャと設計手法を紹介する。
論文 参考訳(メタデータ) (2024-12-07T05:15:05Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。
エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文 参考訳(メタデータ) (2024-11-20T19:44:26Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Gated Slot Attention for Efficient Linear-Time Sequence Modeling [59.019501274074564]
Gated Slot Attention(GSA)は境界メモリ・コントロル(ABC)による注意を高める
GSAはGated Linear Attention (GLA)にインスパイアされたゲーティング機構を組み込んでいる
論文 参考訳(メタデータ) (2024-09-11T09:49:50Z) - Duplex: A Device for Large Language Models with Mixture of Experts, Grouped Query Attention, and Continuous Batching [2.863328705885669]
従来の計算装置では,MoE処理やアテンションレイヤの処理に制限がある。
これらの課題に対処するために、低Op/Bに適したxPUと低Op/B操作に適したLogicPIMを提案する。
論文 参考訳(メタデータ) (2024-09-02T10:21:21Z) - OPIMA: Optical Processing-In-Memory for Convolutional Neural Network Acceleration [5.0389804644646174]
我々は,処理インメモリ(PIM)ベースの機械学習アクセラレータであるOPIMAを紹介する。
PIMは、内部データ移動のボトルネックのため、高いスループットとエネルギー効率を達成するのに苦労している。
我々は,OPIMAのスループットが2.98倍,エネルギー効率が137倍であることを示す。
論文 参考訳(メタデータ) (2024-07-11T06:12:04Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。