論文の概要: Core Placement Optimization of Many-core Brain-Inspired Near-Storage Systems for Spiking Neural Network Training
- arxiv url: http://arxiv.org/abs/2411.19430v1
- Date: Fri, 29 Nov 2024 01:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:21:06.289063
- Title: Core Placement Optimization of Many-core Brain-Inspired Near-Storage Systems for Spiking Neural Network Training
- Title(参考訳): スパイクニューラルネットワークトレーニングのための多コア脳誘発ニアストレージシステムのコア配置最適化
- Authors: Xueke Zhu, Wenjie Lin, Yanyu Lin, Wenxiang Cheng, Zhengyu Ma, Yonghong Tian, Huihui Zhou,
- Abstract要約: オフポリティクス決定論的アクター批判に基づくSNNトレーニング多コアデプロイメント最適化手法を提案する。
我々は,マルチコアニアメモリコンピューティングアーキテクチャにおけるSNNモデルの配置最適化を実現するために,ニアエンドポリシー最適化を通じてポリシネットワークのパラメータを更新する。
本手法は,コア間の不均一な計算やストレージ負荷,ローカル通信ホットスポットの形成といった問題を克服する。
- 参考スコア(独自算出の注目度): 21.75341703605822
- License:
- Abstract: With the increasing application scope of spiking neural networks (SNN), the complexity of SNN models has surged, leading to an exponential growth in demand for AI computility. As the new generation computing architecture of the neural networks, the efficiency and power consumption of distributed storage and parallel computing in the many-core near-memory computing system have attracted much attention. Among them, the mapping problem from logical cores to physical cores is one of the research hotspots. In order to improve the computing parallelism and system throughput of the many-core near-memory computing system, and to reduce power consumption, we propose a SNN training many-core deployment optimization method based on Off-policy Deterministic Actor-Critic. We utilize deep reinforcement learning as a nonlinear optimizer, treating the many-core topology as network graph features and using graph convolution to input the many-core structure into the policy network. We update the parameters of the policy network through near-end policy optimization to achieve deployment optimization of SNN models in the many-core near-memory computing architecture to reduce chip power consumption. To handle large-dimensional action spaces, we use continuous values matching the number of cores as the output of the policy network and then discretize them again to obtain new deployment schemes. Furthermore, to further balance inter-core computation latency and improve system throughput, we propose a model partitioning method with a balanced storage and computation strategy. Our method overcomes the problems such as uneven computation and storage loads between cores, and the formation of local communication hotspots, significantly reducing model training time, communication costs, and average flow load between cores in the many-core near-memory computing architecture.
- Abstract(参考訳): スパイクニューラルネットワーク(SNN)の適用範囲が拡大するにつれて、SNNモデルの複雑さが急増し、AIの計算能力に対する需要が指数関数的に増加した。
ニューラルネットワークの次世代コンピューティングアーキテクチャとして、分散ストレージの効率性と消費電力、およびマルチコアニアメモリコンピューティングシステムにおける並列コンピューティングが注目されている。
その中でも、論理コアから物理コアへのマッピング問題は、研究ホットスポットの1つである。
マルチコア・ニアメモリ・コンピューティングシステムの並列性とシステムスループットの向上と消費電力削減を目的として,オフ・ポリティクス決定論的アクタ・クリティカルに基づくマルチコア・デプロイメント最適化手法を提案する。
深層強化学習を非線形オプティマイザとして利用し、多コアトポロジをネットワークグラフの特徴として扱い、多コア構造をポリシーネットワークに入力するためにグラフ畳み込みを用いる。
我々は,マルチコアニアメモリコンピューティングアーキテクチャにおいて,SNNモデルの配置最適化を実現するために,ニアエンドポリシ最適化を通じてポリシネットワークのパラメータを更新し,チップ消費電力を削減する。
大規模アクション空間を扱うために、ポリシーネットワークの出力としてコアの数に一致する連続値を使用し、それらを再度離散化し、新しいデプロイメントスキームを得る。
さらに,コア間計算のレイテンシとシステムスループットのバランスを改善するため,バランスの取れたストレージと計算戦略を備えたモデル分割手法を提案する。
本手法は,コア間の不均一な計算やストレージ負荷,局所通信ホットスポットの形成といった問題を克服し,モデルトレーニング時間,通信コスト,コア間の平均フロー負荷を大幅に削減する。
関連論文リスト
- Optimal Gradient Checkpointing for Sparse and Recurrent Architectures using Off-Chip Memory [0.8321953606016751]
本稿では,スパースRNNとスパイキングニューラルネットワークの一般クラスに適したメモリ効率の高い勾配チェックポイント戦略を提案する。
再計算のオーバーヘッドを最小限に抑えながら、ローカルメモリリソースの使用を最適化し、Double Checkpointingが最も効果的な方法であることが判明した。
論文 参考訳(メタデータ) (2024-12-16T14:23:31Z) - Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Memory-aware Scheduling for Complex Wired Networks with Iterative Graph
Optimization [4.614780125575351]
本稿では,反復グラフ最適化に基づく効率的なメモリ認識スケジューリングフレームワークを提案する。
我々のフレームワークは、スケジューリングの最適性を保ちながらグラフを単純化する反復グラフ融合アルゴリズムを備えている。
論文 参考訳(メタデータ) (2023-08-26T14:52:02Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Partitioning sparse deep neural networks for scalable training and
inference [8.282177703075453]
最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。
スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。
その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。
論文 参考訳(メタデータ) (2021-04-23T20:05:52Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - Dataflow Aware Mapping of Convolutional Neural Networks Onto Many-Core
Platforms With Network-on-Chip Interconnect [0.0764671395172401]
マシンインテリジェンス、特に畳み込みニューラルネットワーク(CNN)は、ここ数年で大きな研究領域となっている。
複数の同質なコアで構成される多コアプラットフォームは、データフローマッピングの労力の増大を犠牲にして、物理実装に関する制限を緩和することができる。
この作業は、最小限のランタイムと最小限のオフチップメモリアクセスに対して、最適化目標の異なるシングルコアレベルから始まる自動マッピング戦略を示す。
この戦略は、適切なマルチコアマッピング方式に拡張され、ネットワークオンチップ相互接続によるスケーラブルなシステムレベルシミュレーションを用いて評価される。
論文 参考訳(メタデータ) (2020-06-18T17:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。