論文の概要: ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators
using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2009.02010v1
- Date: Fri, 4 Sep 2020 04:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 02:26:01.832068
- Title: ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators
using Reinforcement Learning
- Title(参考訳): ConfuciuX:強化学習を用いたDNN加速器の自動ハードウェアリソース割り当て
- Authors: Sheng-Chun Kao, Geonhwa Jeong, Tushar Krishna
- Abstract要約: 本研究では、与えられたモデルとデータフロースタイルに対して最適化されたHWリソース割り当てを見つけるために、ConfuciuXと呼ばれる自律的戦略を提案する。
最適化されたハードウェア構成4.7から24倍の速度で収束する。
- 参考スコア(独自算出の注目度): 5.251940442946459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DNN accelerators provide efficiency by leveraging reuse of
activations/weights/outputs during the DNN computations to reduce data movement
from DRAM to the chip. The reuse is captured by the accelerator's dataflow.
While there has been significant prior work in exploring and comparing various
dataflows, the strategy for assigning on-chip hardware resources (i.e., compute
and memory) given a dataflow that can optimize for performance/energy while
meeting platform constraints of area/power for DNN(s) of interest is still
relatively unexplored. The design-space of choices for balancing compute and
memory explodes combinatorially, as we show in this work (e.g., as large as
O(10^(72)) choices for running \mobilenet), making it infeasible to do
manual-tuning via exhaustive searches. It is also difficult to come up with a
specific heuristic given that different DNNs and layer types exhibit different
amounts of reuse.
In this paper, we propose an autonomous strategy called ConfuciuX to find
optimized HW resource assignments for a given model and dataflow style.
ConfuciuX leverages a reinforcement learning method, REINFORCE, to guide the
search process, leveraging a detailed HW performance cost model within the
training loop to estimate rewards. We also augment the RL approach with a
genetic algorithm for further fine-tuning. ConfuciuX demonstrates the highest
sample-efficiency for training compared to other techniques such as Bayesian
optimization, genetic algorithm, simulated annealing, and other RL methods. It
converges to the optimized hardware configuration 4.7 to 24 times faster than
alternate techniques.
- Abstract(参考訳): DNNアクセラレータは、DNN計算中にアクティベーション/重み/出力の再利用を活用して、DRAMからチップへのデータ移動を減らすことで効率を向上する。
再利用はアクセラレータのデータフローによってキャプチャされる。
様々なデータフローの探索と比較に先立って大きな作業があったが、チップ上のハードウェアリソース(すなわち、計算とメモリ)を割り当てる戦略には、DNN(s)の領域/パワーのプラットフォーム制約を満たしながら、パフォーマンス/エネルギーを最適化できるデータフローが与えられた。
計算とメモリのバランスをとるための設計空間は、この研究(例えば、o(10^(72)) の大きな \mobilenet の選択肢)で示されるように、組合せ的に爆発し、徹底的な検索によって手動でチューニングすることは不可能である。
また、異なるDNNとレイヤタイプが異なる再利用量を示すため、特定のヒューリスティックを思いつくのは難しい。
本稿では,与えられたモデルとデータフロースタイルに対して最適化されたhwリソース割り当てを求めるための,confuciuxと呼ばれる自律的戦略を提案する。
ConfuciuXは強化学習手法REINFORCEを活用して検索プロセスをガイドし、トレーニングループ内の詳細なHWパフォーマンスコストモデルを利用して報酬を推定する。
また,遺伝子アルゴリズムを用いてRLアプローチを改良し,さらなる微調整を行う。
ConfuciuXは、ベイズ最適化、遺伝的アルゴリズム、シミュレートされたアニーリング、その他のRL法などの他の手法と比較して、トレーニングのサンプル効率が最も高いことを示した。
最適化されたハードウェア構成4.7から24倍の速度で収束する。
関連論文リスト
- GDSG: Graph Diffusion-based Solution Generator for Optimization Problems in MEC Networks [109.17835015018532]
グラフ拡散型ソリューション生成(GDSG)法を提案する。
このアプローチは、おそらく最適な解に収束しながら、最適以下のデータセットを扱うように設計されている。
グラフニューラルネットワーク(GNN)を用いたマルチタスク拡散モデルとしてGDSGを構築し,高品質な解の分布を求める。
論文 参考訳(メタデータ) (2024-12-11T11:13:43Z) - DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - HASS: Hardware-Aware Sparsity Search for Dataflow DNN Accelerator [47.66463010685586]
本稿では,ソフトウェアとハードウェアの共同最適化を用いて,非構造的ウェイトとデータフローアクセラレーターの疎結合性を利用した新しい手法を提案する。
我々は既存のスパース設計と比較して1.3$times$から4.2$times$までの効率改善を実現している。
論文 参考訳(メタデータ) (2024-06-05T09:25:18Z) - RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral
Edge TPUs [12.952987240366781]
本研究は、最適化アルゴリズムの挙動を学習する強化学習(RL)に基づくスケジューリングフレームワークを提案する。
RLは、実行時のオーバーヘッドを短くすることで、ほぼ最適のスケジューリング結果を生成する。
我々のフレームワークは、商用コンパイラ上での実世界のオンチップランタイム推論速度アップを最大$sim2.5times$で実証しています。
論文 参考訳(メタデータ) (2023-04-10T17:22:12Z) - A Theory of I/O-Efficient Sparse Neural Network Inference [17.862408781750126]
機械学習モデルは、その精度を速い速度で向上させるため、エネルギーと計算資源の需要は増大する。
低レベルでは、これらのリソースの大部分は異なるメモリユニット間でのデータ移動によって消費されます。
我々は、スパースフィードフォワードニューラルネットワーク(FFNN)推論に必要なI/Oを厳密に理論的に分析する。
論文 参考訳(メタデータ) (2023-01-03T11:23:46Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - A Hybrid Framework for Sequential Data Prediction with End-to-End
Optimization [0.0]
オンライン環境での非線形予測について検討し,手作業による特徴や手作業によるモデル選択の問題を効果的に緩和するハイブリッドモデルを提案する。
逐次データからの適応的特徴抽出にはLSTM(Recurrent Neural Network)、効果的な教師付き回帰には勾配強化機構(soft GBDT)を用いる。
本稿では, 合成データに対するアルゴリズムの学習挙動と, 各種実生活データセットに対する従来の手法による性能改善について述べる。
論文 参考訳(メタデータ) (2022-03-25T17:13:08Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。