論文の概要: Biologically Plausible Variational Policy Gradient with Spiking
Recurrent Winner-Take-All Networks
- arxiv url: http://arxiv.org/abs/2210.13225v1
- Date: Fri, 21 Oct 2022 08:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:55:08.752653
- Title: Biologically Plausible Variational Policy Gradient with Spiking
Recurrent Winner-Take-All Networks
- Title(参考訳): スパイク・リカレント・ウィンナー・テイク・オールネットワークを用いた生物プラズブル変分政策
- Authors: Zhile Yang, Shangqi Guo, Ying Fang, Jian K. Liu
- Abstract要約: Reward-modulated spike-timing-dependent plasticity (RSTDP) はエネルギー効率に有望な最近の分岐である。
本稿では,グローバルな政策勾配から局所学習規則を導出するSVPG法を提案する。
MNIST分類とGym InPendulumの実験では,SVPGは様々なノイズに対して頑健性を実現する。
- 参考スコア(独自算出の注目度): 4.833815605196964
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: One stream of reinforcement learning research is exploring biologically
plausible models and algorithms to simulate biological intelligence and fit
neuromorphic hardware. Among them, reward-modulated spike-timing-dependent
plasticity (R-STDP) is a recent branch with good potential in energy
efficiency. However, current R-STDP methods rely on heuristic designs of local
learning rules, thus requiring task-specific expert knowledge. In this paper,
we consider a spiking recurrent winner-take-all network, and propose a new
R-STDP method, spiking variational policy gradient (SVPG), whose local learning
rules are derived from the global policy gradient and thus eliminate the need
for heuristic designs. In experiments of MNIST classification and Gym
InvertedPendulum, our SVPG achieves good training performance, and also
presents better robustness to various kinds of noises than conventional
methods.
- Abstract(参考訳): 強化学習研究の1つの流れは、生物学的に妥当なモデルとアルゴリズムを探求し、生物学的知能をシミュレートし、ニューロモルフィックなハードウェアに適合させる。
その中でも,r-stdp(reward-modulated spike-timing-dependent plasticity)はエネルギー効率に優れた近年の分野である。
しかし、現在のR-STDP法は局所学習規則のヒューリスティックな設計に依存しており、タスク固有の専門知識を必要とする。
本稿では, 局所学習規則をグローバルな政策勾配から導出し, ヒューリスティックな設計の必要性を排除した新たなR-STDP手法を提案する。
MNIST分類とGym InvertedPendulumの実験では,SVPGは訓練性能が良好であり,従来の手法よりも各種ノイズに対する堅牢性も良好である。
関連論文リスト
- Solving Deep Reinforcement Learning Benchmarks with Linear Policy
Networks [0.7499722271664147]
本研究では、勾配に基づく深層強化学習法と比較して、進化戦略(ES)がどのように機能するかを検討する。
我々は、観測から行動までの1つの線形層からなる正規ネットワークとポリシーネットワークの両方をベンチマークする。
ESは、多くのRLベンチマークタスクに対して効果的な線形ポリシーを見つけることができる。
論文 参考訳(メタデータ) (2024-02-10T09:15:21Z) - An advantage based policy transfer algorithm for reinforcement learning
with metrics of transferability [6.660458629649826]
強化学習(Reinforcement Learning, RL)は, 複雑・高次元環境における逐次的意思決定を可能にする。
トランスファーRLアルゴリズムは、1つまたは複数のソース環境からターゲット環境への知識の転送に使用できる。
本稿では、固定されたドメイン環境に対する非政治アドバンテージベースのポリシー転送アルゴリズムであるAPT-RLを提案する。
論文 参考訳(メタデータ) (2023-11-12T04:25:53Z) - Real-Time Recurrent Reinforcement Learning [9.141050828506804]
ランダムフィードバックローカルオンライン学習(RFLO)を利用した新しい強化学習アルゴリズムを提案する。
時間差強化学習の変種であるTD($lambda$)と適性トレースを組み合わせることで、生物学的に妥当で繰り返し発生するアクター批判的アルゴリズムを作成する。
提案手法はリアルタイムリカレント強化学習(RTRRL)と呼ばれ、哺乳類の脳の報酬経路を模倣する生物学的ニューラルネットワークの学習モデルとして機能する。
論文 参考訳(メタデータ) (2023-11-08T16:56:16Z) - Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。
各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Deep Learning Meets Adaptive Filtering: A Stein's Unbiased Risk
Estimator Approach [13.887632153924512]
本稿では,Deep RLSとDeep EASIというタスクベースのディープラーニングフレームワークを紹介する。
これらのアーキテクチャは、元のアルゴリズムの繰り返しをディープニューラルネットワークの層に変換し、効率的なソース信号推定を可能にする。
性能をさらに向上するために、我々は、スタインの非バイアスリスク推定器(SURE)に基づく代理損失関数を用いた、これらの深層無ロールネットワークのトレーニングを提案する。
論文 参考訳(メタデータ) (2023-07-31T14:26:41Z) - Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - Towards Scaling Difference Target Propagation by Learning Backprop
Targets [64.90165892557776]
Different Target Propagationは,Gauss-Newton(GN)最適化と密接な関係を持つ生物学的に証明可能な学習アルゴリズムである。
本稿では、DTPがBPを近似し、階層的なフィードバックウェイトトレーニングを復元できる新しいフィードバックウェイトトレーニング手法を提案する。
CIFAR-10 と ImageNet 上で DTP が達成した最高の性能について報告する。
論文 参考訳(メタデータ) (2022-01-31T18:20:43Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - Credit Assignment in Neural Networks through Deep Feedback Control [59.14935871979047]
ディープフィードバックコントロール(Deep Feedback Control, DFC)は、フィードバックコントローラを使用して、望ましい出力ターゲットにマッチするディープニューラルネットワークを駆動し、クレジット割り当てに制御信号を使用する新しい学習方法である。
学習規則は空間と時間において完全に局所的であり、幅広い接続パターンに対するガウス・ニュートンの最適化を近似する。
さらに,DFCと皮質錐体ニューロンのマルチコンパートメントモデルと,局所的な電圧依存性のシナプス可塑性規則を関連づける。
論文 参考訳(メタデータ) (2021-06-15T05:30:17Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z) - Regularized Evolutionary Population-Based Training [11.624954122221562]
本稿では、DNNの重みのトレーニングと損失関数のメタラーニングをインターリーブするEPBT(Population-Based Training)アルゴリズムを提案する。
EPBTは画像分類ベンチマークを高速かつ正確に学習する。
論文 参考訳(メタデータ) (2020-02-11T06:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。