論文の概要: From Buffers to Registers: Unlocking Fine-Grained FlashAttention with Hybrid-Bonded 3D NPU Co-Design
- arxiv url: http://arxiv.org/abs/2602.11016v1
- Date: Wed, 11 Feb 2026 16:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.196193
- Title: From Buffers to Registers: Unlocking Fine-Grained FlashAttention with Hybrid-Bonded 3D NPU Co-Design
- Title(参考訳): バッファーからレジスター:3D NPUの共同設計で細粒度Flashアテンションをアンロック
- Authors: Jinxin Yu, Yudong Pan, Mengdi Wang, Huawei Li, Yinhe Han, Xiaowei Li, Ying Wang,
- Abstract要約: トランスフォーマーベースのモデルは、現代のAIワークロードを支配しているが、二次的な注意の複雑さと継続的な成長するモデルサイズのために、メモリボトルネックが悪化する。
既存のアクセラレーターはオフチップトラフィックを大きなオンチップキャッシュで軽減する一方、FlashAttentionのようなアルゴリズム上の革新は、大きな注意行列の実体化を避けるためにヒューズ演算子を融合させる。
本稿では,垂直分割されたPE層間での登録間通信を可能にする3D-Flowを提案する。
- 参考スコア(独自算出の注目度): 43.026974839576866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models dominate modern AI workloads but exacerbate memory bottlenecks due to their quadratic attention complexity and ever-growing model sizes. Existing accelerators, such as Groq and Cerebras, mitigate off-chip traffic with large on-chip caches, while algorithmic innovations such as FlashAttention fuse operators to avoid materializing large attention matrices. However, as off-chip traffic decreases, our measurements show that on-chip SRAM accesses account for over 60% of energy in long-sequence workloads, making cache access the new bottleneck. We propose 3D-Flow, a hybrid-bonded, 3D-stacked spatial accelerator that enables register-to-register communication across vertically partitioned PE tiers. Unlike 2D multi-array architectures limited by NoC-based router-to-router transfers, 3D-Flow leverages sub-10 um vertical TSVs to sustain cycle-level operator pipelining with minimal overhead. On top of this architecture, we design 3D-FlashAttention, a fine-grained scheduling method that balances latency across tiers, forming a bubble-free vertical dataflow without on-chip SRAM roundtrips. Evaluations on Transformer workloads (OPT and QWEN models) show that our 3D spatial accelerator reduces 46-93% energy consumption and achieves 1.4x-7.6x speedups compared to state-of-the-art 2D and 3D designs.
- Abstract(参考訳): トランスフォーマーベースのモデルは、現代のAIワークロードを支配しているが、二次的な注意の複雑さと継続的な成長するモデルサイズのために、メモリボトルネックが悪化する。
GroqやCerebrasといった既存のアクセラレーターは、オフチップトラフィックを大きなオンチップキャッシュで軽減する一方、FlashAttentionのようなアルゴリズム上の革新は、大きな注意行列の実体化を避けるために演算子を融合させる。
しかし、オフチップトラフィックが減少するにつれて、オンチップのSRAMアクセスが長時間のワークロードで60%以上のエネルギーを消費し、キャッシュアクセスが新たなボトルネックとなることを示す。
本稿では,垂直分割されたPE層間での登録間通信を可能にする3D-Flowを提案する。
NoCベースのルータ・ツー・ルータ転送で制限された2Dマルチアレイアーキテクチャとは異なり、3D-Flowは、最小限のオーバーヘッドでサイクルレベルの演算子パイプライニングを維持するために、サブ10の垂直TSVを利用する。
このアーキテクチャの上に、3D-FlashAttentionを設計します。これは、階層間のレイテンシをバランスさせ、オンチップのSRAMラウンドトリップを使わずに、バブルのない垂直データフローを形成する、きめ細かなスケジューリング方法です。
トランスフォーマーワークロード(OPTおよびQWENモデル)の評価によると、我々の3次元空間加速器は46-93%のエネルギー消費を削減し、最先端の2Dおよび3D設計と比較して1.4x-7.6倍のスピードアップを達成する。
関連論文リスト
- Evolutionary Mapping of Neural Networks to Spatial Accelerators [64.13809409887254]
ニューロモルフィック加速器のための最初の進化的ハードウェア・イン・ザ・ループマッピングフレームワークを紹介する。
我々は,2次元メッシュに152コアを配置した空間加速器であるIntel Loihi 2のアプローチを評価した。
提案手法は,2つのスパース多層パーセプトロンネットワーク上でのデフォルトコアと比較して,最大35%のレイテンシ削減を実現している。
論文 参考訳(メタデータ) (2026-02-04T16:28:08Z) - CHIME: Chiplet-based Heterogeneous Near-Memory Acceleration for Edge Multimodal LLM Inference [19.989162649002274]
エッジMLLM推論のためのチップレットベースの異種ニアメモリ高速化であるCHIMEを提案する。
FastVLM (0.6B/1.7B) とMobileVLM (1.7B/3B) では、CHIMEは54倍のスピードアップと最大246倍のエネルギー効率を達成する。
論文 参考訳(メタデータ) (2025-12-12T03:59:36Z) - RISC-V Based TinyML Accelerator for Depthwise Separable Convolutions in Edge AI [1.1816942730023885]
本稿では,融合画素データフローを利用したハードウェアアクセラレーションアーキテクチャを提案する。
単一の出力ピクセルを計算し、すべてのステージ展開、奥行きの畳み込み、プロジェクションバイ・ストリーミングデータにわたって完了させる。
RISC-Vコア上でのベースラインソフトウェア実行で最大59.3倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-26T10:01:31Z) - LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering [75.67501939005119]
メモリ制約デバイス上での3次元ガウススプラッティングのための新しいレベル・オブ・ディーテール(LOD)法を提案する。
カメラ距離に基づいてガウスの最適部分集合を反復的に選択する。
本手法は,屋外(階層型3DGS)と屋内(Zip-NeRF)の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-05-29T06:50:57Z) - InTAR: Inter-Task Auto-Reconfigurable Accelerator Design for High Data Volume Variation in DNNs [5.762543012823378]
InTARはFPGA上のHDVアプリケーションのための新しいアクセラレータ設計手法である。
回路設計の前に決定された静的スケジュールで実行パターンを自動的に切り替える。
InTARは、少ないリソースと低い再構成時間で高いクロック周波数を達成する。
論文 参考訳(メタデータ) (2025-02-12T21:43:51Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - TrIM, Triangular Input Movement Systolic Array for Convolutional Neural Networks: Architecture and Hardware Implementation [0.0]
TrIMは、入力の三角移動に基づく革新的なデータフローである。
TrIMは、最先端のシストリックアレイと比較して1桁のメモリアクセス数を削減できる。
アーキテクチャは、毎秒453.6ギガオペレーションのピークスループットを達成する。
論文 参考訳(メタデータ) (2024-08-05T10:18:00Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - ATTACC the Quadratic Bottleneck of Attention Layers [3.2741800634280245]
本稿では、ディープニューラルネットワーク(DNN)アクセラレーターのための新しいアテンション調整データフローであるFLATを紹介する。
高帯域幅で低容量のオンチップバッファを効率的に利用することで、効果的なメモリ帯域幅を増大させる。
評価では,ATTACCは最先端エッジやクラウドアクセラレータと比較して1.94倍,1.76倍,49%,42%のエネルギー削減を達成した。
論文 参考訳(メタデータ) (2021-07-13T22:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。