Fugu-MT 論文翻訳(概要): GraNNite: Enabling High-Performance Execution of Graph Neural Networks on Resource-Constrained Neural Processing Units

論文の概要: GraNNite: Enabling High-Performance Execution of Graph Neural Networks on Resource-Constrained Neural Processing Units

arxiv url: http://arxiv.org/abs/2502.06921v1
Date: Mon, 10 Feb 2025 17:03:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:47.820451
Title: GraNNite: Enabling High-Performance Execution of Graph Neural Networks on Resource-Constrained Neural Processing Units
Title（参考訳）: GraNNite: リソース制約されたニューラルネットワークユニット上でのグラフニューラルネットワークの高性能実行の実現
Authors: Arghadip Das, Shamik Kundu, Arnab Raha, Soumendu Ghosh, Deepak Mathaikutty, Vijay Raghunathan,
Abstract要約: グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するために不可欠であり、ネットワーク分析、レコメンデーションシステム、音声分析の応用を可能にする。 GraNNiteは、COTS(Commercial-off-the-Shelf) SOTAアクセラレータ上でGNNの実行を最適化する最初のハードウェア対応フレームワークである。
参考スコア（独自算出の注目度）: 0.6063137165121326
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Graph Neural Networks (GNNs) are vital for learning from graph-structured data, enabling applications in network analysis, recommendation systems, and speech analytics. Deploying them on edge devices like client PCs and laptops enhances real-time processing, privacy, and cloud independence. GNNs aid Retrieval-Augmented Generation (RAG) for Large Language Models (LLMs) and enable event-based vision tasks. However, irregular memory access, sparsity, and dynamic structures cause high latency and energy overhead on resource-constrained devices. While modern edge processors integrate CPUs, GPUs, and NPUs, NPUs designed for data-parallel tasks struggle with irregular GNN computations. We introduce GraNNite, the first hardware-aware framework optimizing GNN execution on commercial-off-the-shelf (COTS) SOTA DNN accelerators via a structured three-step methodology: (1) enabling NPU execution, (2) optimizing performance, and (3) trading accuracy for efficiency gains. Step 1 employs GraphSplit for workload distribution and StaGr for static aggregation, while GrAd and NodePad handle dynamic graphs. Step 2 boosts performance using EffOp for control-heavy tasks and GraSp for sparsity exploitation. Graph Convolution optimizations PreG, SymG, and CacheG reduce redundancy and memory transfers. Step 3 balances quality versus efficiency, where QuantGr applies INT8 quantization, and GrAx1, GrAx2, and GrAx3 accelerate attention, broadcast-add, and SAGE-max aggregation. On Intel Core Ultra AI PCs, GraNNite achieves 2.6X to 7.6X speedups over default NPU mappings and up to 8.6X energy gains over CPUs and GPUs, delivering 10.8X and 6.7X higher performance than CPUs and GPUs, respectively, across GNN models.
Abstract（参考訳）: グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するために不可欠であり、ネットワーク分析、レコメンデーションシステム、音声分析の応用を可能にする。クライアントPCやラップトップなどのエッジデバイスにデプロイすることで、リアルタイム処理やプライバシ、クラウド独立性が向上する。 GNNは、Large Language Models(LLM)のための検索拡張生成(RAG)を支援し、イベントベースのビジョンタスクを可能にする。しかし、不規則なメモリアクセス、スパーシリティ、動的構造は、リソース制約されたデバイスで高いレイテンシとエネルギーオーバーヘッドを引き起こす。現代のエッジプロセッサはCPU、GPU、NPUを統合しているが、データ並列タスク用に設計されたNPUは不規則なGNN計算に苦労している。我々は,(1) NPU実行の実現,(2) 性能の最適化,(3) 効率向上のための取引精度といった3段階の手法を用いて,COTS(Commercial-off-the-Shelf) SOTA DNNアクセラレータ上でのGNN実行を最適化する最初のハードウェア対応フレームワークであるGraNNiteを紹介した。 Step 1では、ワークロードの分散にGraphSplit、静的アグリゲーションにStaGrを使用し、GrAdとNodePadは動的グラフを処理する。 Step 2では、コントロール重いタスクにEffOp、スパシティエクスプロイトにGraSpを使用するパフォーマンスが向上している。 Graph ConvolutionによるPreG、SymG、CacheGの最適化により、冗長性とメモリ転送が削減される。ステップ3は品質と効率のバランスをとり、QuantGrはINT8量子化を適用し、GrAx1、GrAx2、GrAx3は注意力、放送加算、SAGE-maxアグリゲーションを加速する。 Intel Core Ultra AI PCでは、GraNNiteはデフォルトのNPUマッピングよりも2.6倍から7.6倍のスピードアップを実現し、CPUとGPUより最大8.6倍のエネルギ向上を実現している。

関連論文リスト

FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Ev-Edge: Efficient Execution of Event-based Vision Algorithms on Commodity Edge Platforms [10.104371980353973]
Ev-Edgeは、エッジプラットフォーム上でのイベントベースのビジョンシステムのパフォーマンスを高めるために、3つの重要な最適化を含むフレームワークである。様々な自律ナビゲーションタスクのための最先端ネットワークでは、Ev-Edgeはレイテンシが1.28x-2.05x改善され、エネルギーが1.23x-2.15xになった。
論文参考訳（メタデータ） (2024-03-23T04:44:55Z)
Graph Transformers for Large Graphs [57.19338459218758]
この研究は、モデルの特徴と重要な設計制約を識別することに焦点を当てた、単一の大規模グラフでの表現学習を前進させる。この研究の重要な革新は、局所的な注意機構と組み合わされた高速な近傍サンプリング技術の作成である。 ogbn-products と snap-patents の3倍の高速化と16.8%の性能向上を報告し、ogbn-100M で LargeGT を5.9% の性能改善で拡張した。
論文参考訳（メタデータ） (2023-12-18T11:19:23Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文参考訳（メタデータ） (2023-07-14T22:52:27Z)
GHOST: A Graph Neural Network Accelerator using Silicon Photonics [4.226093500082746]
グラフニューラルネットワーク(GNN)は、グラフ構造化データからモデリングと学習を行うための強力なアプローチとして登場した。 GHOSTは、GNNのための最初のシリコンフォトニックハードウェアアクセラレータである。
論文参考訳（メタデータ） (2023-07-04T15:37:20Z)
Communication-Efficient Graph Neural Networks with Probabilistic Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文参考訳（メタデータ） (2023-05-04T21:04:01Z)
Hardware/Software Co-Programmable Framework for Computational SSDs to Accelerate Deep Learning Service on Large-Scale Graphs [8.698995648930806]
グラフニューラルネットワーク(GNN)は、100億のエッジからなる大規模グラフを処理する。高速でエネルギー効率のよいGNN処理のための,使い易く,ほぼ保存可能な推論基盤を提供する,大規模グラフの新たなディープラーニングフレームワークであるHolisticGNNを提案する。
論文参考訳（メタデータ） (2022-01-23T06:08:18Z)
GNNIE: GNN Inference Engine with Load-balancing and Graph-Specific Caching [2.654276707313136]
GNNIEは、幅広いグラフニューラルネットワーク(GNN)を実行するために設計されたアクセラレータである。 i)ノード特徴オペランドをブロックに分割し、 (ii) 再注文と再配布を行い、 (iii) 処理要素間の通信オーバーヘッドの少ない柔軟なMACアーキテクチャを使用する。 GNNIEは、CPU上の8890倍、グラフアテンションネットワーク(GAT)、グラフ畳み込みネットワーク(GCN)、GraphSAGE、GINConv、DiffPool上の複数のデータセット上のGPU上の295倍の平均スピードアップを達成する。
論文参考訳（メタデータ） (2021-05-21T20:07:14Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。