論文の概要: AIRES: Accelerating Out-of-Core GCNs via Algorithm-System Co-Design
- arxiv url: http://arxiv.org/abs/2507.02006v1
- Date: Wed, 02 Jul 2025 00:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:14.979652
- Title: AIRES: Accelerating Out-of-Core GCNs via Algorithm-System Co-Design
- Title(参考訳): AIRES: アルゴリズムとシステムの共同設計によるコア外GCNの高速化
- Authors: Shakya Jayakody, Youpeng Zhao, Jun Wang,
- Abstract要約: グラフ畳み込みネットワーク(GCN)は、バイオメディカルタンパク質とタンパク質の相互作用(PPI)から大規模レコメンデーションシステムまで、様々な科学的応用において基本的なものである。
GCNのグラフ構造をモデル化するための重要な要素はスパース一般行列行列乗法(SpGEMM)である。
SpGEMMは、リソースに制約のあるシステムにおいて、限られたGPUメモリスペースのために、アウトオブコアで実行されることが多い。
本稿では,GCNのアウトオブコア SpGEMM 計算を高速化するアルゴリズム-システム共設計ソリューション AIRES を提案する。
- 参考スコア(独自算出の注目度): 6.554916179445241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph convolutional networks (GCNs) are fundamental in various scientific applications, ranging from biomedical protein-protein interactions (PPI) to large-scale recommendation systems. An essential component for modeling graph structures in GCNs is sparse general matrix-matrix multiplication (SpGEMM). As the size of graph data continues to scale up, SpGEMMs are often conducted in an out-of-core fashion due to limited GPU memory space in resource-constrained systems. Albeit recent efforts that aim to alleviate the memory constraints of out-of-core SpGEMM through either GPU feature caching, hybrid CPU-GPU memory layout, or performing the computation in sparse format, current systems suffer from both high I/O latency and GPU under-utilization issues. In this paper, we first identify the problems of existing systems, where sparse format data alignment and memory allocation are the main performance bottlenecks, and propose AIRES, a novel algorithm-system co-design solution to accelerate out-of-core SpGEMM computation for GCNs. Specifically, from the algorithm angle, AIRES proposes to alleviate the data alignment issues on the block level for matrices in sparse formats and develops a tiling algorithm to facilitate row block-wise alignment. On the system level, AIRES employs a three-phase dynamic scheduling that features a dual-way data transfer strategy utilizing a tiered memory system: integrating GPU memory, GPU Direct Storage (GDS), and host memory to reduce I/O latency and improve throughput. Evaluations show that AIRES significantly outperforms the state-of-the-art methods, achieving up to 1.8x lower latency in real-world graph processing benchmarks.
- Abstract(参考訳): グラフ畳み込みネットワーク(GCN)は、バイオメディカルタンパク質とタンパク質の相互作用(PPI)から大規模レコメンデーションシステムまで、様々な科学的応用において基本的なものである。
GCNのグラフ構造をモデル化するための重要な要素はスパース一般行列行列乗法(SpGEMM)である。
グラフデータのサイズが拡大し続けているため、SpGEMMはリソース制約のあるシステムにおいて、限られたGPUメモリスペースのために、しばしば外付けで実行される。
GPU機能キャッシング、ハイブリッドCPU-GPUメモリレイアウト、あるいはスパースフォーマットでの計算の実行を通じて、コア外のSpGEMMのメモリ制約を軽減することを目的とした最近の取り組みだが、現在のシステムは高いI/OレイテンシとGPUのアンダーユーティリティの問題に悩まされている。
本稿では、まず、スパースフォーマットデータアライメントとメモリアロケーションが主なパフォーマンスボトルネックとなる既存のシステムの問題を特定し、GCNのアウト・オブ・コアSpGEMM計算を高速化するアルゴリズム-システム共設計ソリューションであるAIRESを提案する。
具体的には、アルゴリズムの角度から、AIRESはスパースフォーマットの行列に対するブロックレベルのデータアライメントの問題を軽減することを提案し、行ブロックのアライメントを容易にするタイリングアルゴリズムを開発した。
システムレベルでは、AIRESでは、GPUメモリ、GPU Direct Storage(GDS)、ホストメモリを統合することで、I/Oレイテンシの低減とスループットの向上という、階層型メモリシステムを利用した双方向データ転送戦略を特徴とする3フェーズの動的スケジューリングを採用している。
評価の結果、AIRESは最先端の手法よりも大幅に優れており、実世界のグラフ処理ベンチマークで最大1.8倍のレイテンシを実現している。
関連論文リスト
- Efficient Message Passing Architecture for GCN Training on HBM-based FPGAs with Orthogonal Topology On-Chip Networks [0.0]
グラフ畳み込みネットワーク(GCN)は、グラフ上の表現学習のための最先端のディープラーニングモデルである。
NUMAベースのメモリアクセス特性を利用したメッセージパッシングアーキテクチャを提案する。
また,提案アクセラレータ内でGCN特有のバックプロパゲーションアルゴリズムを再設計した。
論文 参考訳(メタデータ) (2024-11-06T12:00:51Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。
Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-24T03:03:17Z) - Accel-GCN: High-Performance GPU Accelerator Design for Graph Convolution
Networks [12.181052673940465]
グラフ畳み込みネットワーク(GCN)は、様々な領域にわたるグラフデータから潜伏情報を抽出する上で重要である。
本稿では,GCNのためのGPUアクセラレータアーキテクチャであるAccel-GCNを紹介する。
18のベンチマークグラフに対するAccel-GCNの評価では、cuSPARSE、GNNAdvisor、Graph-BLASTをそれぞれ1.17倍、1.86倍、2.94倍で上回っている。
論文 参考訳(メタデータ) (2023-08-22T23:12:17Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - GROW: A Row-Stationary Sparse-Dense GEMM Accelerator for
Memory-Efficient Graph Convolutional Neural Networks [4.669338722185048]
グラフ畳み込みニューラルネットワーク(GCN)のユニークな特徴は、その2つの主要な実行ステージであるアグリゲーションと組み合わせが、大幅に異なるデータフローを示すことである。
本稿では,GustavsonのアルゴリズムをベースとしたGCNアクセラレータGROWについて述べる。
論文 参考訳(メタデータ) (2022-03-01T00:26:31Z) - AutoGMap: Learning to Map Large-scale Sparse Graphs on Memristive
Crossbars [21.835545525155453]
本研究は,問題を逐次決定問題としてモデル化する動的空間認識マッピング手法を提案する。
我々の生成モデル(LSTM)は、小型の典型的なグラフ/行列データに対して顕著なマッピング性能を生成する。
このスキームのコーディングフレームワークは直感的で、デプロイメントやコンパイルシステムに適応可能である。
論文 参考訳(メタデータ) (2021-11-15T11:37:47Z) - GCNear: A Hybrid Architecture for Efficient GCN Training with
Near-Memory Processing [8.130391367247793]
グラフ畳み込みネットワーク(GCN)は、非ユークリッドグラフデータを解析するための最先端のアルゴリズムとなっている。
特に大きなグラフ上で、GCNの効率的なトレーニングを実現することは困難である。
本稿では,これらの課題に対処するためのハイブリッドアーキテクチャであるGCNearを提案する。
論文 参考訳(メタデータ) (2021-11-01T03:47:07Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。