論文の概要: Model-Architecture Co-Design for High Performance Temporal GNN Inference
on FPGA
- arxiv url: http://arxiv.org/abs/2203.05095v1
- Date: Thu, 10 Mar 2022 00:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 15:34:05.090829
- Title: Model-Architecture Co-Design for High Performance Temporal GNN Inference
on FPGA
- Title(参考訳): FPGA上での高速時空間GNN推論のためのモデル構造共設計
- Authors: Hongkuan Zhou, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna, Carl
Busart
- Abstract要約: 実世界のアプリケーションは、リアルタイムストリーミング動的グラフに対して高いパフォーマンスの推論を必要とする。
本稿では,FPGA上でのメモリベースTGNNの推論のための新しいモデルアーキテクチャ共設計を提案する。
我々は、知識蒸留を用いて単純化されたモデルを訓練し、元のモデルと同じような精度でビザビザビザビザを保証します。
- 参考スコア(独自算出の注目度): 5.575293536755127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Graph Neural Networks (TGNNs) are powerful models to capture
temporal, structural, and contextual information on temporal graphs. The
generated temporal node embeddings outperform other methods in many downstream
tasks. Real-world applications require high performance inference on real-time
streaming dynamic graphs. However, these models usually rely on complex
attention mechanisms to capture relationships between temporal neighbors. In
addition, maintaining vertex memory suffers from intrinsic temporal data
dependency that hinders task-level parallelism, making it inefficient on
general-purpose processors. In this work, we present a novel model-architecture
co-design for inference in memory-based TGNNs on FPGAs. The key modeling
optimizations we propose include a light-weight method to compute attention
scores and a related temporal neighbor pruning strategy to further reduce
computation and memory accesses. These are holistically coupled with key
hardware optimizations that leverage FPGA hardware. We replace the temporal
sampler with an on-chip FIFO based hardware sampler and the time encoder with a
look-up-table. We train our simplified models using knowledge distillation to
ensure similar accuracy vis-\'a-vis the original model. Taking advantage of the
model optimizations, we propose a principled hardware architecture using
batching, pipelining, and prefetching techniques to further improve the
performance. We also propose a hardware mechanism to ensure the chronological
vertex updating without sacrificing the computation parallelism. We evaluate
the performance of the proposed hardware accelerator on three real-world
datasets.
- Abstract(参考訳): 時間グラフニューラルネットワーク(tgnn)は、時間グラフの時間的、構造的、文脈的情報をキャプチャする強力なモデルである。
生成された時間ノードの埋め込みは、多くの下流タスクで他のメソッドよりも優れている。
実世界のアプリケーションは、リアルタイムストリーミング動的グラフの高性能な推論を必要とする。
しかし、これらのモデルは通常、時間的近傍間の関係を捉えるために複雑な注意メカニズムに依存している。
さらに、頂点メモリの維持はタスクレベルの並列性を阻害する固有の時間データ依存に悩まされ、汎用プロセッサでは非効率である。
本研究では,FPGA上でのメモリベースTGNNの推論のための新しいモデルアーキテクチャ共設計を提案する。
提案する鍵となるモデリング最適化は,注意スコアを計算する軽量手法と,計算とメモリアクセスをさらに削減するための関連する時間的隣接プルーニング戦略を含む。
これらはFPGAハードウェアを利用するハードウェアの最適化と相性が良い。
我々は、時間サンプリングをオンチップFIFOベースのハードウェアサンプリングに置き換え、タイムエンコーダをルックアップテーブルに置き換える。
我々は, 知識蒸留を用いた簡易モデルの訓練を行い, 類似したモデルのvis-\'a-vis を実現する。
モデル最適化の利点を生かして,バッチ処理,パイプライン化,プリフェッチ技術を用いたハードウェアアーキテクチャを提案する。
また,計算並列性を犠牲にすることなく,時系列の更新を保証するハードウェア機構を提案する。
提案するハードウェアアクセラレータの性能を実世界の3つのデータセットで評価する。
関連論文リスト
- TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文 参考訳(メタデータ) (2023-12-15T04:13:21Z) - The Missing U for Efficient Diffusion Models [3.8983468222277686]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - SPEED: Streaming Partition and Parallel Acceleration for Temporal
Interaction Graph Embedding [22.68416593780539]
本稿では,時間的相互作用グラフ埋め込みのためのストリームエッジ分割と並列高速化という,新たなトレーニング手法を提案する。
提案手法は,計算資源,計算時間,下流タスク性能のバランスが良好である。
7つの実世界のデータセットにまたがる実証的な検証は、トレーニング速度を最大19.29倍に向上させる可能性を実証している。
論文 参考訳(メタデータ) (2023-08-27T15:11:44Z) - Temporal Aggregation and Propagation Graph Neural Networks for Dynamic
Representation [67.26422477327179]
時間グラフは連続時間を通してノード間の動的相互作用を示す。
本研究では,周辺地域全体と時間的グラフ畳み込みの新たな手法を提案する。
提案するTAP-GNNは,予測性能とオンライン推論遅延の両面で,既存の時間グラフ手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-15T08:17:18Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Real-time Hyper-Dimensional Reconfiguration at the Edge using Hardware
Accelerators [12.599871451119538]
HyDRATEは、ディープニューラルネット(DNN)と超次元(HD)コンピューティングアクセラレータを組み合わせることで、エッジでリアルタイムな再構成を行うことができる。
本稿では,アルゴリズム,訓練された量子化モデル生成,および乗算累積のない特徴抽出器の性能について述べる。
降下勾配のバックプロパゲーションを伴わないフィードフォワードHD分類器のみをリトレーニングすることで、フィールドにおける再構成性を実現する。
論文 参考訳(メタデータ) (2022-06-10T14:08:41Z) - Fast Graph Attention Networks Using Effective Resistance Based Graph
Sparsification [70.50751397870972]
FastGATは、スペクトルスペーシフィケーションを用いて、注目に基づくGNNを軽量にし、入力グラフの最適プルーニングを生成する手法である。
我々は,ノード分類タスクのための大規模実世界のグラフデータセット上でFastGATを実験的に評価した。
論文 参考訳(メタデータ) (2020-06-15T22:07:54Z) - GraphACT: Accelerating GCN Training on CPU-FPGA Heterogeneous Platforms [1.2183405753834562]
グラフ畳み込みネットワーク(GCN)は、グラフ上での表現学習のための最先端のディープラーニングモデルとして登場した。
実質的かつ不規則なデータ通信のため、GCNの訓練を加速することは困難である。
我々はCPU-FPGAヘテロジニアスシステム上でGCNをトレーニングするための新しいアクセラレータを設計する。
論文 参考訳(メタデータ) (2019-12-31T21:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。