Fugu-MT 論文翻訳(概要): Memristor Hardware-Friendly Reinforcement Learning

論文の概要: Memristor Hardware-Friendly Reinforcement Learning

arxiv url: http://arxiv.org/abs/2001.06930v1
Date: Mon, 20 Jan 2020 01:08:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-08 05:49:46.590386
Title: Memristor Hardware-Friendly Reinforcement Learning
Title（参考訳）: Memristorハードウェアフレンドリーな強化学習
Authors: Nan Wu, Adrien Vincent, Dmitri Strukov, Yuan Xie
Abstract要約: そこで我々は,強化学習におけるアクター・クリティック・アルゴリズムのための経験的ニューロモルフィック・ハードウェアの実装を提案する。 RLと制御理論の両方において古典的な問題である逆振り子のバランスをとることを考える。本研究は,メムリスタをベースとしたハードウェアニューラルネットワークを用いて複雑なタスクをその場での強化学習によって処理する可能性を示唆している。
参考スコア（独自算出の注目度）: 14.853739554366351
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, significant progress has been made in solving sophisticated problems among various domains by using reinforcement learning (RL), which allows machines or agents to learn from interactions with environments rather than explicit supervision. As the end of Moore's law seems to be imminent, emerging technologies that enable high performance neuromorphic hardware systems are attracting increasing attention. Namely, neuromorphic architectures that leverage memristors, the programmable and nonvolatile two-terminal devices, as synaptic weights in hardware neural networks, are candidates of choice to realize such highly energy-efficient and complex nervous systems. However, one of the challenges for memristive hardware with integrated learning capabilities is prohibitively large number of write cycles that might be required during learning process, and this situation is even exacerbated under RL situations. In this work we propose a memristive neuromorphic hardware implementation for the actor-critic algorithm in RL. By introducing a two-fold training procedure (i.e., ex-situ pre-training and in-situ re-training) and several training techniques, the number of weight updates can be significantly reduced and thus it will be suitable for efficient in-situ learning implementations. As a case study, we consider the task of balancing an inverted pendulum, a classical problem in both RL and control theory. We believe that this study shows the promise of using memristor-based hardware neural networks for handling complex tasks through in-situ reinforcement learning.
Abstract（参考訳）: 近年、機械やエージェントが明示的な監督ではなく環境との相互作用から学習できる強化学習(RL)を用いることで、各領域の高度な問題を解決するために大きな進歩を遂げている。ムーアの法則の終わりが差し迫っているように思えるほど、高性能なニューロモルフィックハードウェアシステムを実現する新しい技術が注目を集めている。すなわち、ハードウェアニューラルネットワークのシナプス重みとしてプログラム可能で非揮発性2次元デバイスであるメムリスタを利用するニューロモルフィックアーキテクチャは、そのような高エネルギー効率で複雑な神経システムを実現するための候補である。しかし、統合学習能力を持つ統合型ハードウェアの課題の1つは、学習プロセス中に必要となるであろう大量の書き込みサイクルであり、この状況はrl状況下でさらに悪化する。本稿では,rlにおけるアクタ-クリティックアルゴリズムのための記憶的ニューロモルフィックハードウェアの実装を提案する。 2倍のトレーニング手順(例えば、前段階のトレーニングと後段階のトレーニング)と複数のトレーニング手法を導入することで、重み付けの回数を大幅に減らし、効率的な内段階の学習実装に適している。ケーススタディとして、逆振り子(RLと制御理論の両方において古典的な問題)のバランスをとることを考える。本研究は,memristorをベースとするハードウェアニューラルネットワークを用いた複雑なタスク処理を,その場で強化学習によって実現する可能性を示すものである。

関連論文リスト

Improving Neural Network Training using Dynamic Learning Rate Schedule for PINNs and Image Classification [0.0]
本稿では,学習過程における損失値に基づいて学習率を適応する動的学習率スケジューラ(DLRS)アルゴリズムを提案する。物理インフォームドニューラルネットワーク(PINN)と画像分類に関する問題に対して,多層パーセプトロンと畳み込みニューラルネットワークを用いた実験を行った。
論文参考訳（メタデータ） (2025-07-29T12:31:21Z)
Enhancing Hardware Fault Tolerance in Machines with Reinforcement Learning Policy Gradient Algorithms [2.473948454680334]
強化学習に基づくロボット制御は、ハードウェアフォールトトレランスを達成するための新しい視点を提供する。本稿では,2つの最先端強化学習アルゴリズム,PPO(Proximal Policy Optimization)とSAC(Soft Actor-Critic)の可能性について検討する。我々は,PPOがモデル内の知識を保持する際に最も高速な適応を示すのに対し,SACは獲得した知識を全て捨てるときに最善であることを示す。
論文参考訳（メタデータ） (2024-07-21T22:24:16Z)
Neuro-mimetic Task-free Unsupervised Online Learning with Continual Self-Organizing Maps [56.827895559823126]
自己組織化マップ(英: Self-organizing map、SOM)は、クラスタリングや次元減少によく用いられるニューラルネットワークモデルである。低メモリ予算下でのオンライン教師なし学習が可能なSOM(連続SOM)の一般化を提案する。 MNIST, Kuzushiji-MNIST, Fashion-MNISTなどのベンチマークでは, ほぼ2倍の精度が得られた。
論文参考訳（メタデータ） (2024-02-19T19:11:22Z)
Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文参考訳（メタデータ） (2023-06-14T01:24:42Z)
Deep learning applied to computational mechanics: A comprehensive review, state of the art, and the classics [77.34726150561087]
人工知能,特に深層学習(DL)の最近の進歩を概観する。ハイブリッドおよび純粋機械学習(ML)の手法について論じる。 AIの歴史と限界は、特に古典の誤解や誤解を指摘し、議論され、議論される。
論文参考訳（メタデータ） (2022-12-18T02:03:00Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Learning to Modulate Random Weights: Neuromodulation-inspired Neural Networks For Efficient Continual Learning [1.9580473532948401]
生体神経系における神経調節にインスパイアされた新しいニューラルネットワークアーキテクチャを導入する。学習可能なパラメータが極めて少ないにもかかわらず,本手法はタスク毎の学習性能が極めて高いことを示す。
論文参考訳（メタデータ） (2022-04-08T21:12:13Z)
Online Training of Spiking Recurrent Neural Networks with Phase-Change Memory Synapses [1.9809266426888898]
専用のニューロモルフィックハードウェア上でのスパイクニューラルネットワーク(RNN)のトレーニングは、依然としてオープンな課題である。本稿では,PCMデバイスモデルに基づく差分構造アレイのシミュレーションフレームワークを提案する。我々は,最近提案されたe-prop学習規則を用いて,提案したシミュレーションフレームワークに重みをエミュレートしたスパイクRNNを訓練する。
論文参考訳（メタデータ） (2021-08-04T01:24:17Z)
Deep Reinforcement Learning with Population-Coded Spiking Neural Network for Continuous Control [0.0]
深層強化学習(DRL)を用いた深層批評家ネットワークと連携して訓練された集団符号化スパイキングアクターネットワーク(PopSAN)を提案する。我々は、トレーニング済みのPopSANをIntelのLoihiニューロモルフィックチップにデプロイし、本手法をメインストリームのDRLアルゴリズムと比較し、連続的な制御を行った。本研究はニューロモルフィックコントローラの効率性をサポートし,エネルギー効率とロバスト性の両方が重要である場合,我々のハイブリッドRLをディープラーニングの代替として提案する。
論文参考訳（メタデータ） (2020-10-19T16:20:45Z)
Surrogate gradients for analog neuromorphic computing [2.6475944316982942]
デバイスミスマッチに対する自己修正学習は,視覚と音声のベンチマークにおいて,競争力のあるネットワーク性能をもたらすことを示す。我々の研究は、アナログニューロモルフィックハードウェア上での低エネルギースパイクネットワーク処理のための新しいベンチマークをいくつか設定する。
論文参考訳（メタデータ） (2020-06-12T14:45:12Z)
Spiking Neural Networks Hardware Implementations and Challenges: a Survey [53.429871539789445]
スパイキングニューラルネットワークは、ニューロンとシナプスの操作原理を模倣する認知アルゴリズムである。スパイキングニューラルネットワークのハードウェア実装の現状について述べる。本稿では,これらのイベント駆動アルゴリズムの特性をハードウェアレベルで活用するための戦略について論じる。
論文参考訳（メタデータ） (2020-05-04T13:24:00Z)
Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文参考訳（メタデータ） (2020-03-02T18:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。