論文の概要: Memristor Hardware-Friendly Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2001.06930v1
- Date: Mon, 20 Jan 2020 01:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 05:49:46.590386
- Title: Memristor Hardware-Friendly Reinforcement Learning
- Title(参考訳): Memristorハードウェアフレンドリーな強化学習
- Authors: Nan Wu, Adrien Vincent, Dmitri Strukov, Yuan Xie
- Abstract要約: そこで我々は,強化学習におけるアクター・クリティック・アルゴリズムのための経験的ニューロモルフィック・ハードウェアの実装を提案する。
RLと制御理論の両方において古典的な問題である逆振り子のバランスをとることを考える。
本研究は,メムリスタをベースとしたハードウェアニューラルネットワークを用いて複雑なタスクをその場での強化学習によって処理する可能性を示唆している。
- 参考スコア(独自算出の注目度): 14.853739554366351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, significant progress has been made in solving sophisticated
problems among various domains by using reinforcement learning (RL), which
allows machines or agents to learn from interactions with environments rather
than explicit supervision. As the end of Moore's law seems to be imminent,
emerging technologies that enable high performance neuromorphic hardware
systems are attracting increasing attention. Namely, neuromorphic architectures
that leverage memristors, the programmable and nonvolatile two-terminal
devices, as synaptic weights in hardware neural networks, are candidates of
choice to realize such highly energy-efficient and complex nervous systems.
However, one of the challenges for memristive hardware with integrated learning
capabilities is prohibitively large number of write cycles that might be
required during learning process, and this situation is even exacerbated under
RL situations. In this work we propose a memristive neuromorphic hardware
implementation for the actor-critic algorithm in RL. By introducing a two-fold
training procedure (i.e., ex-situ pre-training and in-situ re-training) and
several training techniques, the number of weight updates can be significantly
reduced and thus it will be suitable for efficient in-situ learning
implementations. As a case study, we consider the task of balancing an inverted
pendulum, a classical problem in both RL and control theory. We believe that
this study shows the promise of using memristor-based hardware neural networks
for handling complex tasks through in-situ reinforcement learning.
- Abstract(参考訳): 近年、機械やエージェントが明示的な監督ではなく環境との相互作用から学習できる強化学習(RL)を用いることで、各領域の高度な問題を解決するために大きな進歩を遂げている。
ムーアの法則の終わりが差し迫っているように思えるほど、高性能なニューロモルフィックハードウェアシステムを実現する新しい技術が注目を集めている。
すなわち、ハードウェアニューラルネットワークのシナプス重みとしてプログラム可能で非揮発性2次元デバイスであるメムリスタを利用するニューロモルフィックアーキテクチャは、そのような高エネルギー効率で複雑な神経システムを実現するための候補である。
しかし、統合学習能力を持つ統合型ハードウェアの課題の1つは、学習プロセス中に必要となるであろう大量の書き込みサイクルであり、この状況はrl状況下でさらに悪化する。
本稿では,rlにおけるアクタ-クリティックアルゴリズムのための記憶的ニューロモルフィックハードウェアの実装を提案する。
2倍のトレーニング手順(例えば、前段階のトレーニングと後段階のトレーニング)と複数のトレーニング手法を導入することで、重み付けの回数を大幅に減らし、効率的な内段階の学習実装に適している。
ケーススタディとして、逆振り子(RLと制御理論の両方において古典的な問題)のバランスをとることを考える。
本研究は,memristorをベースとするハードウェアニューラルネットワークを用いた複雑なタスク処理を,その場で強化学習によって実現する可能性を示すものである。
関連論文リスト
- Enhancing Hardware Fault Tolerance in Machines with Reinforcement Learning Policy Gradient Algorithms [2.473948454680334]
強化学習に基づくロボット制御は、ハードウェアフォールトトレランスを達成するための新しい視点を提供する。
本稿では,2つの最先端強化学習アルゴリズム,PPO(Proximal Policy Optimization)とSAC(Soft Actor-Critic)の可能性について検討する。
我々は,PPOがモデル内の知識を保持する際に最も高速な適応を示すのに対し,SACは獲得した知識を全て捨てるときに最善であることを示す。
論文 参考訳(メタデータ) (2024-07-21T22:24:16Z) - Neuro-mimetic Task-free Unsupervised Online Learning with Continual
Self-Organizing Maps [56.827895559823126]
自己組織化マップ(英: Self-organizing map、SOM)は、クラスタリングや次元減少によく用いられるニューラルネットワークモデルである。
低メモリ予算下でのオンライン教師なし学習が可能なSOM(連続SOM)の一般化を提案する。
MNIST, Kuzushiji-MNIST, Fashion-MNISTなどのベンチマークでは, ほぼ2倍の精度が得られた。
論文 参考訳(メタデータ) (2024-02-19T19:11:22Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - Deep learning applied to computational mechanics: A comprehensive
review, state of the art, and the classics [77.34726150561087]
人工知能,特に深層学習(DL)の最近の進歩を概観する。
ハイブリッドおよび純粋機械学習(ML)の手法について論じる。
AIの歴史と限界は、特に古典の誤解や誤解を指摘し、議論され、議論される。
論文 参考訳(メタデータ) (2022-12-18T02:03:00Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Learning to Modulate Random Weights: Neuromodulation-inspired Neural
Networks For Efficient Continual Learning [1.9580473532948401]
生体神経系における神経調節にインスパイアされた新しいニューラルネットワークアーキテクチャを導入する。
学習可能なパラメータが極めて少ないにもかかわらず,本手法はタスク毎の学習性能が極めて高いことを示す。
論文 参考訳(メタデータ) (2022-04-08T21:12:13Z) - Online Training of Spiking Recurrent Neural Networks with Phase-Change
Memory Synapses [1.9809266426888898]
専用のニューロモルフィックハードウェア上でのスパイクニューラルネットワーク(RNN)のトレーニングは、依然としてオープンな課題である。
本稿では,PCMデバイスモデルに基づく差分構造アレイのシミュレーションフレームワークを提案する。
我々は,最近提案されたe-prop学習規則を用いて,提案したシミュレーションフレームワークに重みをエミュレートしたスパイクRNNを訓練する。
論文 参考訳(メタデータ) (2021-08-04T01:24:17Z) - Deep Reinforcement Learning with Population-Coded Spiking Neural Network
for Continuous Control [0.0]
深層強化学習(DRL)を用いた深層批評家ネットワークと連携して訓練された集団符号化スパイキングアクターネットワーク(PopSAN)を提案する。
我々は、トレーニング済みのPopSANをIntelのLoihiニューロモルフィックチップにデプロイし、本手法をメインストリームのDRLアルゴリズムと比較し、連続的な制御を行った。
本研究はニューロモルフィックコントローラの効率性をサポートし,エネルギー効率とロバスト性の両方が重要である場合,我々のハイブリッドRLをディープラーニングの代替として提案する。
論文 参考訳(メタデータ) (2020-10-19T16:20:45Z) - Surrogate gradients for analog neuromorphic computing [2.6475944316982942]
デバイスミスマッチに対する自己修正学習は,視覚と音声のベンチマークにおいて,競争力のあるネットワーク性能をもたらすことを示す。
我々の研究は、アナログニューロモルフィックハードウェア上での低エネルギースパイクネットワーク処理のための新しいベンチマークをいくつか設定する。
論文 参考訳(メタデータ) (2020-06-12T14:45:12Z) - Spiking Neural Networks Hardware Implementations and Challenges: a
Survey [53.429871539789445]
スパイキングニューラルネットワークは、ニューロンとシナプスの操作原理を模倣する認知アルゴリズムである。
スパイキングニューラルネットワークのハードウェア実装の現状について述べる。
本稿では,これらのイベント駆動アルゴリズムの特性をハードウェアレベルで活用するための戦略について論じる。
論文 参考訳(メタデータ) (2020-05-04T13:24:00Z) - Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve
Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。
予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-03-02T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。