Fugu-MT 論文翻訳(概要): Biologically Plausible Variational Policy Gradient with Spiking Recurrent Winner-Take-All Networks

論文の概要: Biologically Plausible Variational Policy Gradient with Spiking Recurrent Winner-Take-All Networks

arxiv url: http://arxiv.org/abs/2210.13225v1
Date: Fri, 21 Oct 2022 08:19:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 13:55:08.752653
Title: Biologically Plausible Variational Policy Gradient with Spiking Recurrent Winner-Take-All Networks
Title（参考訳）: スパイク・リカレント・ウィンナー・テイク・オールネットワークを用いた生物プラズブル変分政策
Authors: Zhile Yang, Shangqi Guo, Ying Fang, Jian K. Liu
Abstract要約: Reward-modulated spike-timing-dependent plasticity (RSTDP) はエネルギー効率に有望な最近の分岐である。本稿では,グローバルな政策勾配から局所学習規則を導出するSVPG法を提案する。 MNIST分類とGym InPendulumの実験では,SVPGは様々なノイズに対して頑健性を実現する。
参考スコア（独自算出の注目度）: 4.833815605196964
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: One stream of reinforcement learning research is exploring biologically plausible models and algorithms to simulate biological intelligence and fit neuromorphic hardware. Among them, reward-modulated spike-timing-dependent plasticity (R-STDP) is a recent branch with good potential in energy efficiency. However, current R-STDP methods rely on heuristic designs of local learning rules, thus requiring task-specific expert knowledge. In this paper, we consider a spiking recurrent winner-take-all network, and propose a new R-STDP method, spiking variational policy gradient (SVPG), whose local learning rules are derived from the global policy gradient and thus eliminate the need for heuristic designs. In experiments of MNIST classification and Gym InvertedPendulum, our SVPG achieves good training performance, and also presents better robustness to various kinds of noises than conventional methods.
Abstract（参考訳）: 強化学習研究の1つの流れは、生物学的に妥当なモデルとアルゴリズムを探求し、生物学的知能をシミュレートし、ニューロモルフィックなハードウェアに適合させる。その中でも,r-stdp(reward-modulated spike-timing-dependent plasticity)はエネルギー効率に優れた近年の分野である。しかし、現在のR-STDP法は局所学習規則のヒューリスティックな設計に依存しており、タスク固有の専門知識を必要とする。本稿では, 局所学習規則をグローバルな政策勾配から導出し, ヒューリスティックな設計の必要性を排除した新たなR-STDP手法を提案する。 MNIST分類とGym InvertedPendulumの実験では,SVPGは訓練性能が良好であり,従来の手法よりも各種ノイズに対する堅牢性も良好である。

関連論文リスト

Sign-Symmetry Learning Rules are Robust Fine-Tuners [0.10923877073891444]
バックプロパゲーションは長年、ニューラルネットワークをトレーニングするための主要な方法だった。サイン-シメトリ学習規則を用いたBP事前学習モデルを提案する。
論文参考訳（メタデータ） (2025-02-09T14:59:57Z)
A Novel Switch-Type Policy Network for Resource Allocation Problems: Technical Report [1.4201040196058878]
本稿では,待ち行列ネットワークにおけるDRLポリシーの効率化と一般化を目的としたスイッチ型ニューラルネットワークアーキテクチャを提案する。各種トレーニングシナリオにおいて,STNはより優れたサンプル効率を実現し,新しい環境下では著しく優れていた。
論文参考訳（メタデータ） (2025-01-19T18:14:12Z)
Neural DNF-MT: A Neuro-symbolic Approach for Learning Interpretable and Editable Policies [51.03989561425833]
本稿では、エンドツーエンドポリシー学習のためのニューラルDNF-MTと呼ばれるニューラルシンボリックアプローチを提案する。ニューラルDNF-MTモデルの微分可能な性質は、訓練にディープアクター批判アルゴリズムを使用することを可能にする。決定論的ポリシーの2値表現をどのように編集し、ニューラルモデルに組み込むかを示す。
論文参考訳（メタデータ） (2025-01-07T15:51:49Z)
Randomized Forward Mode Gradient for Spiking Neural Networks in Scientific Machine Learning [4.178826560825283]
スパイキングニューラルネットワーク(SNN)は、ディープニューラルネットワークの階層的学習能力とスパイクベースの計算のエネルギー効率を組み合わせた、機械学習における有望なアプローチである。 SNNの伝統的なエンドツーエンドトレーニングは、しばしばバックプロパゲーションに基づいており、重み更新はチェーンルールによって計算された勾配から導かれる。この手法は, 生体適合性に限界があり, ニューロモルフィックハードウェアの非効率性のため, 課題に遭遇する。本研究では,SNNの代替トレーニング手法を導入する。後方伝搬の代わりに,前方モード内での重量摂動手法を活用する。
論文参考訳（メタデータ） (2024-11-11T15:20:54Z)
Gradient-based Learning in State-based Potential Games for Self-Learning Production Systems [3.156133122658661]
本稿では,自己学習型分散生産システムにおける状態ベースポテンシャルゲーム(SbPG)の勾配に基づく最適化手法を提案する。 SbPGは自己最適化型分散マルチエージェントシステムの実現に有効であることが認識されている。
論文参考訳（メタデータ） (2024-06-14T13:26:36Z)
Towards Interpretable Deep Local Learning with Successive Gradient Reconciliation [70.43845294145714]
グローバルバックプロパゲーション(BP)に対するニューラルネットワークトレーニングの信頼性の回復が、注目すべき研究トピックとして浮上している。本稿では,隣接モジュール間の勾配調整を連続的に調整する局所的学習戦略を提案する。提案手法はローカルBPとBPフリー設定の両方に統合できる。
論文参考訳（メタデータ） (2024-06-07T19:10:31Z)
Gradient-Free Training of Recurrent Neural Networks using Random Perturbations [1.1742364055094265]
リカレントニューラルネットワーク(RNN)は、チューリング完全性とシーケンシャルな処理能力のために、計算の潜在能力を秘めている。時間によるバックプロパゲーション(BPTT)は、時間とともにRNNをアンロールすることでバックプロパゲーションアルゴリズムを拡張する。 BPTTは、前方と後方のフェーズをインターリーブし、正確な勾配情報を格納する必要があるなど、大きな欠点に悩まされている。 BPTTと競合するRNNにおける摂動学習に対する新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-05-14T21:15:29Z)
Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文参考訳（メタデータ） (2024-03-21T11:54:45Z)
Real-Time Recurrent Reinforcement Learning [7.737685867200335]
RTRRLは,(1)メタRL RNNアーキテクチャを独自に実装したアクター・クリティカルなアルゴリズム,(2)メタRLネットワークをトレーニングするために時間差分学習とダッチ適性トレースを利用する外部強化学習アルゴリズム,(3)ネットワークのパラメータに関する勾配を計算するオンライン自動微分アルゴリズムであるRFLO学習の3つの部分から構成される。
論文参考訳（メタデータ） (2023-11-08T16:56:16Z)
Deep Learning Meets Adaptive Filtering: A Stein's Unbiased Risk Estimator Approach [13.887632153924512]
本稿では,Deep RLSとDeep EASIというタスクベースのディープラーニングフレームワークを紹介する。これらのアーキテクチャは、元のアルゴリズムの繰り返しをディープニューラルネットワークの層に変換し、効率的なソース信号推定を可能にする。性能をさらに向上するために、我々は、スタインの非バイアスリスク推定器(SURE)に基づく代理損失関数を用いた、これらの深層無ロールネットワークのトレーニングを提案する。
論文参考訳（メタデータ） (2023-07-31T14:26:41Z)
Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。 NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文参考訳（メタデータ） (2023-04-21T17:53:05Z)
Towards Scaling Difference Target Propagation by Learning Backprop Targets [64.90165892557776]
Different Target Propagationは,Gauss-Newton(GN)最適化と密接な関係を持つ生物学的に証明可能な学習アルゴリズムである。本稿では、DTPがBPを近似し、階層的なフィードバックウェイトトレーニングを復元できる新しいフィードバックウェイトトレーニング手法を提案する。 CIFAR-10 と ImageNet 上で DTP が達成した最高の性能について報告する。
論文参考訳（メタデータ） (2022-01-31T18:20:43Z)
Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2021-11-12T18:13:45Z)
Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。 ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文参考訳（メタデータ） (2020-04-27T16:19:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。