Fugu-MT 論文翻訳(概要): Model-Architecture Co-Design for High Performance Temporal GNN Inference on FPGA

論文の概要: Model-Architecture Co-Design for High Performance Temporal GNN Inference on FPGA

arxiv url: http://arxiv.org/abs/2203.05095v1
Date: Thu, 10 Mar 2022 00:24:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-11 15:34:05.090829
Title: Model-Architecture Co-Design for High Performance Temporal GNN Inference on FPGA
Title（参考訳）: FPGA上での高速時空間GNN推論のためのモデル構造共設計
Authors: Hongkuan Zhou, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna, Carl Busart
Abstract要約: 実世界のアプリケーションは、リアルタイムストリーミング動的グラフに対して高いパフォーマンスの推論を必要とする。本稿では,FPGA上でのメモリベースTGNNの推論のための新しいモデルアーキテクチャ共設計を提案する。我々は、知識蒸留を用いて単純化されたモデルを訓練し、元のモデルと同じような精度でビザビザビザビザを保証します。
参考スコア（独自算出の注目度）: 5.575293536755127
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporal Graph Neural Networks (TGNNs) are powerful models to capture temporal, structural, and contextual information on temporal graphs. The generated temporal node embeddings outperform other methods in many downstream tasks. Real-world applications require high performance inference on real-time streaming dynamic graphs. However, these models usually rely on complex attention mechanisms to capture relationships between temporal neighbors. In addition, maintaining vertex memory suffers from intrinsic temporal data dependency that hinders task-level parallelism, making it inefficient on general-purpose processors. In this work, we present a novel model-architecture co-design for inference in memory-based TGNNs on FPGAs. The key modeling optimizations we propose include a light-weight method to compute attention scores and a related temporal neighbor pruning strategy to further reduce computation and memory accesses. These are holistically coupled with key hardware optimizations that leverage FPGA hardware. We replace the temporal sampler with an on-chip FIFO based hardware sampler and the time encoder with a look-up-table. We train our simplified models using knowledge distillation to ensure similar accuracy vis-\'a-vis the original model. Taking advantage of the model optimizations, we propose a principled hardware architecture using batching, pipelining, and prefetching techniques to further improve the performance. We also propose a hardware mechanism to ensure the chronological vertex updating without sacrificing the computation parallelism. We evaluate the performance of the proposed hardware accelerator on three real-world datasets.
Abstract（参考訳）: 時間グラフニューラルネットワーク(tgnn)は、時間グラフの時間的、構造的、文脈的情報をキャプチャする強力なモデルである。生成された時間ノードの埋め込みは、多くの下流タスクで他のメソッドよりも優れている。実世界のアプリケーションは、リアルタイムストリーミング動的グラフの高性能な推論を必要とする。しかし、これらのモデルは通常、時間的近傍間の関係を捉えるために複雑な注意メカニズムに依存している。さらに、頂点メモリの維持はタスクレベルの並列性を阻害する固有の時間データ依存に悩まされ、汎用プロセッサでは非効率である。本研究では,FPGA上でのメモリベースTGNNの推論のための新しいモデルアーキテクチャ共設計を提案する。提案する鍵となるモデリング最適化は,注意スコアを計算する軽量手法と,計算とメモリアクセスをさらに削減するための関連する時間的隣接プルーニング戦略を含む。これらはFPGAハードウェアを利用するハードウェアの最適化と相性が良い。我々は、時間サンプリングをオンチップFIFOベースのハードウェアサンプリングに置き換え、タイムエンコーダをルックアップテーブルに置き換える。我々は, 知識蒸留を用いた簡易モデルの訓練を行い, 類似したモデルのvis-\'a-vis を実現する。モデル最適化の利点を生かして,バッチ処理,パイプライン化,プリフェッチ技術を用いたハードウェアアーキテクチャを提案する。また,計算並列性を犠牲にすることなく,時系列の更新を保証するハードウェア機構を提案する。提案するハードウェアアクセラレータの性能を実世界の3つのデータセットで評価する。

関連論文リスト

Event-based Graph Representation with Spatial and Motion Vectors for Asynchronous Object Detection [20.537672896807063]
イベントベースのセンサは、高時間分解能と不規則レイテンシを提供する。このデータを高密度テンソルに変換することで、標準的なニューラルネットワークでの使用は、これらの固有の利点を減らします。本稿では,空間構造と時間的変化をよりよく捉えるために,新しい多面的表現を提案する。
論文参考訳（メタデータ） (2025-07-20T23:02:23Z)
iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation [49.8026360054331]
iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
論文参考訳（メタデータ） (2025-03-20T19:10:37Z)
Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文参考訳（メタデータ） (2025-02-03T13:09:21Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文参考訳（メタデータ） (2024-10-01T17:23:26Z)
POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文参考訳（メタデータ） (2024-09-30T16:05:29Z)
TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文参考訳（メタデータ） (2024-04-15T06:01:48Z)
TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文参考訳（メタデータ） (2024-01-06T06:26:49Z)
Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文参考訳（メタデータ） (2023-12-15T04:13:21Z)
Mending of Spatio-Temporal Dependencies in Block Adjacency Matrix [3.529869282529924]
本稿では,時間的依存を考慮に入れた新たなエンドツーエンド学習アーキテクチャを提案する。提案手法は,SurgVisDomやC2D2などのベンチマークデータセット上での優れた性能を示す。
論文参考訳（メタデータ） (2023-10-04T06:42:33Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文参考訳（メタデータ） (2022-09-20T14:41:37Z)
GraphACT: Accelerating GCN Training on CPU-FPGA Heterogeneous Platforms [1.2183405753834562]
グラフ畳み込みネットワーク(GCN)は、グラフ上での表現学習のための最先端のディープラーニングモデルとして登場した。実質的かつ不規則なデータ通信のため、GCNの訓練を加速することは困難である。我々はCPU-FPGAヘテロジニアスシステム上でGCNをトレーニングするための新しいアクセラレータを設計する。
論文参考訳（メタデータ） (2019-12-31T21:19:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。