論文の概要: Optimizing Attention on GPUs by Exploiting GPU Architectural NUMA Effects
- arxiv url: http://arxiv.org/abs/2511.02132v1
- Date: Mon, 03 Nov 2025 23:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.751312
- Title: Optimizing Attention on GPUs by Exploiting GPU Architectural NUMA Effects
- Title(参考訳): GPUアーキテクチャNUMA効果の爆発によるGPUへの注意の最適化
- Authors: Mansi Choudhary, Karthik Sangaiah, Sonali Singh, Muhammad Osama, Lisa Wu Wills, Ganesh Dasika,
- Abstract要約: 我々は、従来のGPUカーネルスケジューリング戦略を損なうことなく、計算領域間でメモリレイテンシと帯域幅がいかに大きく変化するかを示す。
Swizzled Head-first Mappingは、注意をGPU NUMAドメインに合わせる空間認識型スケジューリング戦略である。
AMDのMI300Xアーキテクチャでは,最先端の注目アルゴリズムよりも50%高い性能を実現している。
- 参考スコア(独自算出の注目度): 3.124720734513875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of disaggregated AI GPUs has exposed a critical bottleneck in large-scale attention workloads: non-uniform memory access (NUMA). As multi-chiplet designs become the norm for scaling compute capabilities, memory latency and bandwidth vary sharply across compute regions, undermining the performance of traditional GPU kernel scheduling strategies that assume uniform memory access. We identify how these NUMA effects distort locality in multi-head attention (MHA) and present Swizzled Head-first Mapping, a spatially-aware scheduling strategy that aligns attention heads with GPU NUMA domains to exploit intra-chiplet cache reuse. On AMD's MI300X architecture, our method achieves up to 50% higher performance over state-of-the-art attention algorithms using conventional scheduling techniques and sustains consistently high L2 cache hit rates of 80-97%. These results demonstrate that NUMA-aware scheduling is now fundamental to achieving full efficiency on next-generation disaggregated GPUs, offering a path forward for scalable AI training and inference.
- Abstract(参考訳): 非一様メモリアクセス(NUMA)という、大規模な注目ワークロードにおいて、非集約型AIGPUの台頭が重大なボトルネックを露呈している。
マルチチップの設計が計算能力のスケーリングの標準となるにつれて、メモリレイテンシと帯域幅は計算領域によって大きく変化し、メモリアクセスを均一にする従来のGPUカーネルスケジューリング戦略のパフォーマンスを損なうことになる。
我々は,これらのNUMA効果がマルチヘッドアテンション(MHA)における局所性を歪めているかを特定し,このSwizzled Head-first Mappingは,アテンションヘッドをGPU NUMAドメインに整合させて,チップ内のキャッシュ再利用を活用する空間認識型スケジューリング戦略である。
AMDのMI300Xアーキテクチャでは、従来のスケジューリング手法を用いて、最先端のアテンションアルゴリズムよりも50%高い性能を実現し、80~97%のL2キャッシュヒット率を一定に維持する。
これらの結果は、NUMAを意識したスケジューリングが、次世代の非集約型GPUで完全な効率を達成するための基本であることを示し、スケーラブルなAIトレーニングと推論の道筋を提供する。
関連論文リスト
- AIRES: Accelerating Out-of-Core GCNs via Algorithm-System Co-Design [6.554916179445241]
グラフ畳み込みネットワーク(GCN)は、バイオメディカルタンパク質とタンパク質の相互作用(PPI)から大規模レコメンデーションシステムまで、様々な科学的応用において基本的なものである。
GCNのグラフ構造をモデル化するための重要な要素はスパース一般行列行列乗法(SpGEMM)である。
SpGEMMは、リソースに制約のあるシステムにおいて、限られたGPUメモリスペースのために、アウトオブコアで実行されることが多い。
本稿では,GCNのアウトオブコア SpGEMM 計算を高速化するアルゴリズム-システム共設計ソリューション AIRES を提案する。
論文 参考訳(メタデータ) (2025-07-02T00:35:43Z) - Power Law Guided Dynamic Sifting for Efficient Attention [0.8198759882422455]
そこで我々は,最上位のk$ステップをしきい値に基づく計算効率の良い要素ワイドフィルタリング操作に置き換える,新しい近似アテンション手法SiftAttentionを提案する。
評価の結果,SiftAttentionは,ベクタのロード時のメモリ使用量を削減するとともに,既存の近似アテンション手法よりもモデル品質を向上することが示された。
論文 参考訳(メタデータ) (2025-06-05T17:50:32Z) - HAPM -- Hardware Aware Pruning Method for CNN hardware accelerators in resource constrained devices [44.99833362998488]
本研究はFPGAデバイスに実装可能な汎用ハードウェアアーキテクチャを提案する。
設計の推論速度は、リソース制約の異なるFPGAデバイス上で評価される。
ハードウェア対応プルーニングアルゴリズムは,標準アルゴリズムを用いたネットワークプルーニングに比べて,推論時間45%の顕著な改善を実現していることを示す。
論文 参考訳(メタデータ) (2024-08-26T07:27:12Z) - Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - FULL-W2V: Fully Exploiting Data Reuse for W2V on GPU-Accelerated Systems [5.572152653851948]
FULL-W2Vは、W2Vアルゴリズムにおけるデータ再利用の機会を利用して、低メモリレベルへのアクセスを減らし、時間的局所性を改善する。
我々のプロトタイプ実装では、Nvidia Pascal P100からVolta V100への移植時に2.97倍の高速化を実現し、同じ埋め込み品質のV100カードでは、最先端の5.72倍の性能を発揮する。
論文 参考訳(メタデータ) (2023-12-12T21:22:07Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。
我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。
また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文 参考訳(メタデータ) (2020-12-08T04:50:05Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。