論文の概要: Population-coding and Dynamic-neurons improved Spiking Actor Network for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.07854v1
- Date: Tue, 15 Jun 2021 03:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 04:03:27.894763
- Title: Population-coding and Dynamic-neurons improved Spiking Actor Network for
Reinforcement Learning
- Title(参考訳): 強化学習のための集団符号化と動的ニューロン改良スパイキングアクターネットワーク
- Authors: Duzhen Zhang, Tielin Zhang, Shuncheng Jia, Xiang Cheng and Bo Xu
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、スパイキングニューロンの多様な集団を含み、空間的および時間的情報による状態表現に自然に強力である。
本稿では,2つの異なるスケールからの効率的な状態表現を実現するために,PDSAN(Population-coding and Dynamic-neurons improve Spiking Actor Network)を提案する。
我々のTD3-PDSANモデルは,4つのOpenAIジムベンチマークタスクにおける最先端モデルよりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 10.957578424267757
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: With the Deep Neural Networks (DNNs) as a powerful function approximator,
Deep Reinforcement Learning (DRL) has been excellently demonstrated on robotic
control tasks. Compared to DNNs with vanilla artificial neurons, the
biologically plausible Spiking Neural Network (SNN) contains a diverse
population of spiking neurons, making it naturally powerful on state
representation with spatial and temporal information. Based on a hybrid
learning framework, where a spike actor-network infers actions from states and
a deep critic network evaluates the actor, we propose a Population-coding and
Dynamic-neurons improved Spiking Actor Network (PDSAN) for efficient state
representation from two different scales: input coding and neuronal coding. For
input coding, we apply population coding with dynamically receptive fields to
directly encode each input state component. For neuronal coding, we propose
different types of dynamic-neurons (containing 1st-order and 2nd-order neuronal
dynamics) to describe much more complex neuronal dynamics. Finally, the PDSAN
is trained in conjunction with deep critic networks using the Twin Delayed Deep
Deterministic policy gradient algorithm (TD3-PDSAN). Extensive experimental
results show that our TD3-PDSAN model achieves better performance than
state-of-the-art models on four OpenAI gym benchmark tasks. It is an important
attempt to improve RL with SNN towards the effective computation satisfying
biological plausibility.
- Abstract(参考訳): Deep Neural Networks (DNN) を強力な関数近似器として、Deep Reinforcement Learning (DRL) はロボット制御タスクにおいて優れた実証がなされている。
バニラ人工ニューロンのDNNと比較して、生物学的にプラウチブルなスパイキングニューラルネットワーク(SNN)は多様なスパイキングニューロンを含み、空間的および時間的情報による状態表現に自然に強力である。
スパイクアクターネットワークが状態からアクションを推測し、深い批評家ネットワークがアクターを評価するハイブリッド学習フレームワークに基づいて、入力符号化とニューラルコーディングの2つの異なる尺度から効率的な状態表現を実現するために、PDSAN(Population-coding and Dynamic-neurons improve Spiking Actor Network)を提案する。
入力符号化では,各入力状態成分を直接符号化するために動的受容場を用いた集団符号化を適用する。
ニューロン符号化では、より複雑なニューロン力学を記述するために、異なる種類の動的ニューロン(第1次および第2次神経力学を含む)を提案する。
最後に、PDSANは、TD3-PDSAN(Twin Delayed Deep Deterministic Policy gradient algorithm)を用いて、深い批判ネットワークと共に訓練される。
総合的な実験結果から,我々のTD3-PDSANモデルは,4つのOpenAI体育館ベンチマークタスクの最先端モデルよりも優れた性能が得られることが示された。
SNNによるRL向上のための重要な試みであり、生物学的な妥当性を満たす効果的な計算方法である。
関連論文リスト
- Fully Spiking Actor Network with Intra-layer Connections for
Reinforcement Learning [51.386945803485084]
エージェントが制御する多次元決定論的ポリシーを学習する必要があるタスクに焦点をあてる。
既存のスパイクベースのRL法は、SNNの出力として発火率を取り、完全に接続された層を通して連続的なアクション空間(つまり決定論的なポリシー)を表すように変換する。
浮動小数点行列操作を伴わない完全にスパイクするアクターネットワークを開発するため,昆虫に見られる非スパイク介在ニューロンからインスピレーションを得た。
論文 参考訳(メタデータ) (2024-01-09T07:31:34Z) - Co-learning synaptic delays, weights and adaptation in spiking neural
networks [0.0]
スパイキングニューラルネットワーク(SNN)は、固有の時間処理とスパイクベースの計算のため、人工知能ニューラルネットワーク(ANN)と区別する。
スパイクニューロンを用いたデータ処理は、他の2つの生物学的にインスピレーションを受けたニューロンの特徴と接続重みを協調学習することで向上できることを示す。
論文 参考訳(メタデータ) (2023-09-12T09:13:26Z) - A Hybrid Neural Coding Approach for Pattern Recognition with Spiking
Neural Networks [53.31941519245432]
脳にインスパイアされたスパイクニューラルネットワーク(SNN)は、パターン認識タスクを解く上で有望な能力を示している。
これらのSNNは、情報表現に一様神経コーディングを利用する同質ニューロンに基づいている。
本研究では、SNNアーキテクチャは異種符号化方式を組み込むよう、均質に設計されるべきである、と論じる。
論文 参考訳(メタデータ) (2023-05-26T02:52:12Z) - Complex Dynamic Neurons Improved Spiking Transformer Network for
Efficient Automatic Speech Recognition [8.998797644039064]
リークインテグレーテッド・アンド・ファイア(LIF)ニューロンを用いたスパイクニューラルネットワーク(SNN)は、音声認識(ASR)タスクで一般的に用いられている。
ここでは、スパイキングトランスから生成された逐次パターンを後処理する4種類の神経力学を紹介する。
その結果,DyTr-SNNは音素誤り率の低下,計算コストの低下,ロバスト性の向上など,非トイ自動音声認識タスクをうまく処理できることがわかった。
論文 参考訳(メタデータ) (2023-02-02T16:20:27Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Deep Reinforcement Learning with Spiking Q-learning [51.386945803485084]
スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。
SNNと深部強化学習(RL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。
論文 参考訳(メタデータ) (2022-01-21T16:42:11Z) - Finite Meta-Dynamic Neurons in Spiking Neural Networks for
Spatio-temporal Learning [13.037452551907657]
Spiking Neural Networks (SNN) は、生物学的に証明可能な構造と学習原則を取り入れている。
時相学習におけるネットワークの一般化を改善するために,SNNを改善するメタ動的ニューロン(MDN)を提案する。
MDNは空間的(MNIST)と時間的(TIt)データセットから生成され、その後様々な時間的タスクに拡張された。
論文 参考訳(メタデータ) (2020-10-07T03:49:28Z) - Effective and Efficient Computation with Multiple-timescale Spiking
Recurrent Neural Networks [0.9790524827475205]
本稿では,新しいタイプの適応スパイクリカレントニューラルネットワーク(SRNN)が,最先端の性能を実現する方法を示す。
我々は、従来のRNNよりも難しいタスクにおいて、SRNNの100倍のエネルギー改善を計算します。
論文 参考訳(メタデータ) (2020-05-24T01:04:53Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。