Fugu-MT 論文翻訳(概要): ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators using Reinforcement Learning

論文の概要: ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators using Reinforcement Learning

arxiv url: http://arxiv.org/abs/2009.02010v1
Date: Fri, 4 Sep 2020 04:59:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-22 02:26:01.832068
Title: ConfuciuX: Autonomous Hardware Resource Assignment for DNN Accelerators using Reinforcement Learning
Title（参考訳）: ConfuciuX:強化学習を用いたDNN加速器の自動ハードウェアリソース割り当て
Authors: Sheng-Chun Kao, Geonhwa Jeong, Tushar Krishna
Abstract要約: 本研究では、与えられたモデルとデータフロースタイルに対して最適化されたHWリソース割り当てを見つけるために、ConfuciuXと呼ばれる自律的戦略を提案する。最適化されたハードウェア構成4.7から24倍の速度で収束する。
参考スコア（独自算出の注目度）: 5.251940442946459
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: DNN accelerators provide efficiency by leveraging reuse of activations/weights/outputs during the DNN computations to reduce data movement from DRAM to the chip. The reuse is captured by the accelerator's dataflow. While there has been significant prior work in exploring and comparing various dataflows, the strategy for assigning on-chip hardware resources (i.e., compute and memory) given a dataflow that can optimize for performance/energy while meeting platform constraints of area/power for DNN(s) of interest is still relatively unexplored. The design-space of choices for balancing compute and memory explodes combinatorially, as we show in this work (e.g., as large as O(10^(72)) choices for running \mobilenet), making it infeasible to do manual-tuning via exhaustive searches. It is also difficult to come up with a specific heuristic given that different DNNs and layer types exhibit different amounts of reuse. In this paper, we propose an autonomous strategy called ConfuciuX to find optimized HW resource assignments for a given model and dataflow style. ConfuciuX leverages a reinforcement learning method, REINFORCE, to guide the search process, leveraging a detailed HW performance cost model within the training loop to estimate rewards. We also augment the RL approach with a genetic algorithm for further fine-tuning. ConfuciuX demonstrates the highest sample-efficiency for training compared to other techniques such as Bayesian optimization, genetic algorithm, simulated annealing, and other RL methods. It converges to the optimized hardware configuration 4.7 to 24 times faster than alternate techniques.
Abstract（参考訳）: DNNアクセラレータは、DNN計算中にアクティベーション/重み/出力の再利用を活用して、DRAMからチップへのデータ移動を減らすことで効率を向上する。再利用はアクセラレータのデータフローによってキャプチャされる。様々なデータフローの探索と比較に先立って大きな作業があったが、チップ上のハードウェアリソース(すなわち、計算とメモリ)を割り当てる戦略には、DNN(s)の領域/パワーのプラットフォーム制約を満たしながら、パフォーマンス/エネルギーを最適化できるデータフローが与えられた。計算とメモリのバランスをとるための設計空間は、この研究(例えば、o(10^(72)) の大きな \mobilenet の選択肢)で示されるように、組合せ的に爆発し、徹底的な検索によって手動でチューニングすることは不可能である。また、異なるDNNとレイヤタイプが異なる再利用量を示すため、特定のヒューリスティックを思いつくのは難しい。本稿では,与えられたモデルとデータフロースタイルに対して最適化されたhwリソース割り当てを求めるための,confuciuxと呼ばれる自律的戦略を提案する。 ConfuciuXは強化学習手法REINFORCEを活用して検索プロセスをガイドし、トレーニングループ内の詳細なHWパフォーマンスコストモデルを利用して報酬を推定する。また,遺伝子アルゴリズムを用いてRLアプローチを改良し,さらなる微調整を行う。 ConfuciuXは、ベイズ最適化、遺伝的アルゴリズム、シミュレートされたアニーリング、その他のRL法などの他の手法と比較して、トレーニングのサンプル効率が最も高いことを示した。最適化されたハードウェア構成4.7から24倍の速度で収束する。

関連論文リスト

Dynamic Tsetlin Machine Accelerators for On-Chip Training at the Edge using FPGAs [0.3440236962613469]
本稿では,Deep Neural Networks (DNN) の代替として,動的Tsetlin Machine (DTM) トレーニングアクセラレータを提案する。 DTMは、より少ない乗算累積で微分計算を欠いた訓練を行う。提案された加速器は、Watt毎の毎秒2.54倍のギガ演算(GOP/s/W)を提供し、次の同等の設計よりも6倍少ない電力を使用する。
論文参考訳（メタデータ） (2025-04-28T13:38:53Z)
GDSG: Graph Diffusion-based Solution Generator for Optimization Problems in MEC Networks [109.17835015018532]
グラフ拡散型ソリューション生成(GDSG)法を提案する。このアプローチは、おそらく最適な解に収束しながら、最適以下のデータセットを扱うように設計されている。グラフニューラルネットワーク(GNN)を用いたマルチタスク拡散モデルとしてGDSGを構築し,高品質な解の分布を求める。
論文参考訳（メタデータ） (2024-12-11T11:13:43Z)
DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。 DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文参考訳（メタデータ） (2024-10-09T05:16:44Z)
HASS: Hardware-Aware Sparsity Search for Dataflow DNN Accelerator [47.66463010685586]
本稿では,ソフトウェアとハードウェアの共同最適化を用いて,非構造的ウェイトとデータフローアクセラレーターの疎結合性を利用した新しい手法を提案する。我々は既存のスパース設計と比較して1.3$times$から4.2$times$までの効率改善を実現している。
論文参考訳（メタデータ） (2024-06-05T09:25:18Z)
RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral Edge TPUs [12.952987240366781]
本研究は、最適化アルゴリズムの挙動を学習する強化学習(RL)に基づくスケジューリングフレームワークを提案する。 RLは、実行時のオーバーヘッドを短くすることで、ほぼ最適のスケジューリング結果を生成する。我々のフレームワークは、商用コンパイラ上での実世界のオンチップランタイム推論速度アップを最大$sim2.5times$で実証しています。
論文参考訳（メタデータ） (2023-04-10T17:22:12Z)
A Theory of I/O-Efficient Sparse Neural Network Inference [17.862408781750126]
機械学習モデルは、その精度を速い速度で向上させるため、エネルギーと計算資源の需要は増大する。低レベルでは、これらのリソースの大部分は異なるメモリユニット間でのデータ移動によって消費されます。我々は、スパースフィードフォワードニューラルネットワーク(FFNN)推論に必要なI/Oを厳密に理論的に分析する。
論文参考訳（メタデータ） (2023-01-03T11:23:46Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文参考訳（メタデータ） (2022-09-04T06:45:33Z)
A Hybrid Framework for Sequential Data Prediction with End-to-End Optimization [0.0]
オンライン環境での非線形予測について検討し,手作業による特徴や手作業によるモデル選択の問題を効果的に緩和するハイブリッドモデルを提案する。逐次データからの適応的特徴抽出にはLSTM(Recurrent Neural Network)、効果的な教師付き回帰には勾配強化機構(soft GBDT)を用いる。本稿では, 合成データに対するアルゴリズムの学習挙動と, 各種実生活データセットに対する従来の手法による性能改善について述べる。
論文参考訳（メタデータ） (2022-03-25T17:13:08Z)
Optimizing Memory Placement using Evolutionary Graph Reinforcement Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。また,NNP-Iコンパイラと比較して28～78%の高速化を実現している。
論文参考訳（メタデータ） (2020-07-14T18:50:12Z)
Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。その結果, 直接使用法と比較して計算時間を2～5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文参考訳（メタデータ） (2020-02-04T20:00:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。