Fugu-MT 論文翻訳(概要): A Design Flow for Mapping Spiking Neural Networks to Many-Core Neuromorphic Hardware

論文の概要: A Design Flow for Mapping Spiking Neural Networks to Many-Core Neuromorphic Hardware

arxiv url: http://arxiv.org/abs/2108.12444v1
Date: Fri, 27 Aug 2021 18:08:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-17 00:53:13.455139
Title: A Design Flow for Mapping Spiking Neural Networks to Many-Core Neuromorphic Hardware
Title（参考訳）: スパイクニューラルネットワークを多コアニューロモルフィックハードウェアにマッピングするための設計フロー
Authors: Shihao Song, M. Lakshmi Varshika, Anup Das, and Nagarajan Kandasamy
Abstract要約: 多コアニューロモルフィックハードウェアは、大規模な機械学習モデルを実行することが期待されている。設計の複雑さに対処するためには、リアルタイムのパフォーマンスを保証するために予測可能な設計フローが必要である。スパイクニューラルネットワークを多コアニューロモルフィックハードウェアにマッピングするためのSDFGに基づく設計フローを提案する。
参考スコア（独自算出の注目度）: 4.527975416669432
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The design of many-core neuromorphic hardware is getting more and more complex as these systems are expected to execute large machine learning models. To deal with the design complexity, a predictable design flow is needed to guarantee real-time performance such as latency and throughput without significantly increasing the buffer requirement of computing cores. Synchronous Data Flow Graphs (SDFGs) are used for predictable mapping of streaming applications to multiprocessor systems. We propose an SDFG-based design flow for mapping spiking neural networks (SNNs) to many-core neuromorphic hardware with the objective of exploring the tradeoff between throughput and buffer size. The proposed design flow integrates an iterative partitioning approach, based on Kernighan-Lin graph partitioning heuristic, creating SNN clusters such that each cluster can be mapped to a core of the hardware. The partitioning approach minimizes the inter-cluster spike communication, which improves latency on the shared interconnect of the hardware. Next, the design flow maps clusters to cores using an instance of the Particle Swarm Optimization (PSO), an evolutionary algorithm, exploring the design space of throughput and buffer size. Pareto optimal mappings are retained from the design flow, allowing system designers to select a Pareto mapping that satisfies throughput and buffer size requirements of the design. We evaluated the design flow using five large-scale convolutional neural network (CNN) models. Results demonstrate 63% higher maximum throughput and 10% lower buffer size requirement compared to state-of-the-art dataflow-based mapping solutions.
Abstract（参考訳）: マルチコアニューロモルフィックハードウェアの設計は、大規模機械学習モデルの実行が期待されているため、ますます複雑になっています。設計の複雑さに対処するためには、コンピューティングコアのバッファ要求を大幅に増大させることなく、レイテンシやスループットなどのリアルタイムパフォーマンスを保証するために、予測可能な設計フローが必要である。同期データフローグラフ(SDFG)は、ストリーミングアプリケーションのマルチプロセッサシステムへの予測可能なマッピングに使用される。本稿では,スループットとバッファサイズとのトレードオフを探索する目的で,SDFGに基づくスパイキングニューラルネットワーク(SNN)を多コアニューロモルフィックハードウェアにマッピングする設計フローを提案する。提案する設計フローは,Kernighan-Linグラフ分割ヒューリスティックに基づく反復的分割アプローチを統合し,各クラスタをハードウェアのコアにマッピング可能なSNNクラスタを生成する。パーティショニングアプローチはクラスタ間スパイク通信を最小限にし、ハードウェアの共有インターコネクトのレイテンシを改善する。次に、設計フローは、スループットとバッファサイズの設計空間を探索する進化的アルゴリズムであるParticle Swarm Optimization (PSO)のインスタンスを使用して、クラスタをコアにマップする。 paretoの最適マッピングは設計フローから保持され、システム設計者は設計のスループットとバッファサイズの要求を満たすparetoマッピングを選択することができる。 5つの大規模畳み込みニューラルネットワーク(CNN)モデルを用いて設計フローを評価する。その結果,最新のデータフローベースのマッピングソリューションと比較して,最大スループットが63%向上し,バッファサイズが10%削減された。

関連論文リスト

Core Placement Optimization of Many-core Brain-Inspired Near-Storage Systems for Spiking Neural Network Training [21.75341703605822]
オフポリティクス決定論的アクター批判に基づくSNNトレーニング多コアデプロイメント最適化手法を提案する。我々は,マルチコアニアメモリコンピューティングアーキテクチャにおけるSNNモデルの配置最適化を実現するために,ニアエンドポリシー最適化を通じてポリシネットワークのパラメータを更新する。本手法は,コア間の不均一な計算やストレージ負荷,ローカル通信ホットスポットの形成といった問題を克服する。
論文参考訳（メタデータ） (2024-11-29T01:46:30Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文参考訳（メタデータ） (2024-04-15T06:01:48Z)
An FPGA-Based Accelerator Enabling Efficient Support for CNNs with Arbitrary Kernel Sizes [11.681245043617848]
大規模なカーネルを持つ畳み込みニューラルネットワーク(CNN)は、様々な視覚ベースのアプリケーションで顕著なパフォーマンスを示している。任意のカーネルサイズを持つCNNを効率的に展開するためのFPGAベースの推論アクセラレータを提案する。提案されたハードウェアアクセラレータは、Intel Arria 10 FPGAで評価され、同一ネットワーク上の先行技術よりも最大3.91倍のDSP効率を実現している。
論文参考訳（メタデータ） (2024-02-22T05:52:55Z)
Mixed-TD: Efficient Neural Network Accelerator with Layer-Specific Tensor Decomposition [7.221206118679026]
そこで我々は,Mixed-TDと呼ばれるテンソル分解法に基づいて,CNNをFPGAにマッピングするフレームワークを提案する。提案手法は,DSP毎の1.73倍から10.29倍のスループットを最先端CNNに適用し,層固有特異値分解(SVD)とカノニカルポリアディック分解(CPD)を混合的に適用する。
論文参考訳（メタデータ） (2023-06-08T08:16:38Z)
Reconfigurable Distributed FPGA Cluster Design for Deep Learning Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文参考訳（メタデータ） (2023-05-24T16:08:55Z)
FlowNAS: Neural Architecture Search for Optical Flow Estimation [65.44079917247369]
本研究では,フロー推定タスクにおいて,より優れたエンコーダアーキテクチャを自動で見つけるために,FlowNASというニューラルアーキテクチャ探索手法を提案する。実験の結果、スーパーネットワークから受け継いだ重み付きアーキテクチャは、KITTI上で4.67%のF1-allエラーを達成していることがわかった。
論文参考訳（メタデータ） (2022-07-04T09:05:25Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
N3H-Core: Neuron-designed Neural Network Accelerator via FPGA-based Heterogeneous Computing Cores [26.38812379700231]
FPGAを用いたニューラルネットワーク高速化のための異種計算システムを開発した。提案するアクセラレータは、DSPとLUTをベースとしたGEMM(GEneral Matrix-Multiplication)コンピューティングコアで構成されている。我々の設計では、最新のMix&Match設計よりも遅延が1.12-1.32x削減され、推論精度が向上した。
論文参考訳（メタデータ） (2021-12-15T15:12:00Z)
Dataflow Aware Mapping of Convolutional Neural Networks Onto Many-Core Platforms With Network-on-Chip Interconnect [0.0764671395172401]
マシンインテリジェンス、特に畳み込みニューラルネットワーク(CNN)は、ここ数年で大きな研究領域となっている。複数の同質なコアで構成される多コアプラットフォームは、データフローマッピングの労力の増大を犠牲にして、物理実装に関する制限を緩和することができる。この作業は、最小限のランタイムと最小限のオフチップメモリアクセスに対して、最適化目標の異なるシングルコアレベルから始まる自動マッピング戦略を示す。この戦略は、適切なマルチコアマッピング方式に拡張され、ネットワークオンチップ相互接続によるスケーラブルなシステムレベルシミュレーションを用いて評価される。
論文参考訳（メタデータ） (2020-06-18T17:13:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。