論文の概要: ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators
using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2009.02010v1
- Date: Fri, 4 Sep 2020 04:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 02:26:01.832068
- Title: ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators
using Reinforcement Learning
- Title(参考訳): ConfuciuX:強化学習を用いたDNN加速器の自動ハードウェアリソース割り当て
- Authors: Sheng-Chun Kao, Geonhwa Jeong, Tushar Krishna
- Abstract要約: 本研究では、与えられたモデルとデータフロースタイルに対して最適化されたHWリソース割り当てを見つけるために、ConfuciuXと呼ばれる自律的戦略を提案する。
最適化されたハードウェア構成4.7から24倍の速度で収束する。
- 参考スコア(独自算出の注目度): 5.251940442946459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DNN accelerators provide efficiency by leveraging reuse of
activations/weights/outputs during the DNN computations to reduce data movement
from DRAM to the chip. The reuse is captured by the accelerator's dataflow.
While there has been significant prior work in exploring and comparing various
dataflows, the strategy for assigning on-chip hardware resources (i.e., compute
and memory) given a dataflow that can optimize for performance/energy while
meeting platform constraints of area/power for DNN(s) of interest is still
relatively unexplored. The design-space of choices for balancing compute and
memory explodes combinatorially, as we show in this work (e.g., as large as
O(10^(72)) choices for running \mobilenet), making it infeasible to do
manual-tuning via exhaustive searches. It is also difficult to come up with a
specific heuristic given that different DNNs and layer types exhibit different
amounts of reuse.
In this paper, we propose an autonomous strategy called ConfuciuX to find
optimized HW resource assignments for a given model and dataflow style.
ConfuciuX leverages a reinforcement learning method, REINFORCE, to guide the
search process, leveraging a detailed HW performance cost model within the
training loop to estimate rewards. We also augment the RL approach with a
genetic algorithm for further fine-tuning. ConfuciuX demonstrates the highest
sample-efficiency for training compared to other techniques such as Bayesian
optimization, genetic algorithm, simulated annealing, and other RL methods. It
converges to the optimized hardware configuration 4.7 to 24 times faster than
alternate techniques.
- Abstract(参考訳): DNNアクセラレータは、DNN計算中にアクティベーション/重み/出力の再利用を活用して、DRAMからチップへのデータ移動を減らすことで効率を向上する。
再利用はアクセラレータのデータフローによってキャプチャされる。
様々なデータフローの探索と比較に先立って大きな作業があったが、チップ上のハードウェアリソース(すなわち、計算とメモリ)を割り当てる戦略には、DNN(s)の領域/パワーのプラットフォーム制約を満たしながら、パフォーマンス/エネルギーを最適化できるデータフローが与えられた。
計算とメモリのバランスをとるための設計空間は、この研究(例えば、o(10^(72)) の大きな \mobilenet の選択肢)で示されるように、組合せ的に爆発し、徹底的な検索によって手動でチューニングすることは不可能である。
また、異なるDNNとレイヤタイプが異なる再利用量を示すため、特定のヒューリスティックを思いつくのは難しい。
本稿では,与えられたモデルとデータフロースタイルに対して最適化されたhwリソース割り当てを求めるための,confuciuxと呼ばれる自律的戦略を提案する。
ConfuciuXは強化学習手法REINFORCEを活用して検索プロセスをガイドし、トレーニングループ内の詳細なHWパフォーマンスコストモデルを利用して報酬を推定する。
また,遺伝子アルゴリズムを用いてRLアプローチを改良し,さらなる微調整を行う。
ConfuciuXは、ベイズ最適化、遺伝的アルゴリズム、シミュレートされたアニーリング、その他のRL法などの他の手法と比較して、トレーニングのサンプル効率が最も高いことを示した。
最適化されたハードウェア構成4.7から24倍の速度で収束する。
関連論文リスト
- Efficient Training Under Limited Resources [1.5749416770494706]
ディープラーニング(DNN)の性能に影響を与える要因のひとつとして,データセットのトレーニング時間予算とサイズがある。
このような目標を達成するためのアプローチを3つのステップで提示する。
我々の研究は、ICLR 2021 Hardware Aware Efficient Training (HAET) Challengeで、Mini-ImageNetの小さなサブセットに対して86.0%の精度を達成した。
論文 参考訳(メタデータ) (2023-01-23T04:26:20Z) - A Theory of I/O-Efficient Sparse Neural Network Inference [17.862408781750126]
機械学習モデルは、その精度を速い速度で向上させるため、エネルギーと計算資源の需要は増大する。
低レベルでは、これらのリソースの大部分は異なるメモリユニット間でのデータ移動によって消費されます。
我々は、スパースフィードフォワードニューラルネットワーク(FFNN)推論に必要なI/Oを厳密に理論的に分析する。
論文 参考訳(メタデータ) (2023-01-03T11:23:46Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。
私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。
我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文 参考訳(メタデータ) (2022-09-04T06:45:33Z) - A Hybrid Framework for Sequential Data Prediction with End-to-End
Optimization [0.0]
オンライン環境での非線形予測について検討し,手作業による特徴や手作業によるモデル選択の問題を効果的に緩和するハイブリッドモデルを提案する。
逐次データからの適応的特徴抽出にはLSTM(Recurrent Neural Network)、効果的な教師付き回帰には勾配強化機構(soft GBDT)を用いる。
本稿では, 合成データに対するアルゴリズムの学習挙動と, 各種実生活データセットに対する従来の手法による性能改善について述べる。
論文 参考訳(メタデータ) (2022-03-25T17:13:08Z) - DNN Training Acceleration via Exploring GPGPU Friendly Sparsity [16.406482603838157]
本稿では、従来のランダムなニューロンやシナプスのドロップアウトを、通常のオンラインの行ベースもしくはタイルベースのドロップアウトパターンに置き換える近似ランダムドロップアウトを提案する。
次に,SGDに基づく探索アルゴリズムを開発し,行ベースあるいはタイルベースのドロップアウトパターンの分布を生成し,潜在的な精度損失を補う。
また,入力特徴図をその感度に基づいて動的にドロップアウトし,前向きおよび後向きのトレーニングアクセラレーションを実現するための感度対応ドロップアウト手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T01:32:03Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。