論文の概要: Reinforcement Learning with Feedback-modulated TD-STDP
- arxiv url: http://arxiv.org/abs/2008.13044v1
- Date: Sat, 29 Aug 2020 20:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 16:54:36.319859
- Title: Reinforcement Learning with Feedback-modulated TD-STDP
- Title(参考訳): フィードバック変調TD-STDPによる強化学習
- Authors: Stephen Chung, Robert Kozma
- Abstract要約: フィードバック変調を含むスパイキングニューロンネットワークのためのSTDPに基づく新しい学習ルールを提案する。
本稿では,STDPに基づく学習ルールを用いて,従来の強化学習アルゴリズムと同様の速度で離散的な動作をセットした強化学習タスクを解くことができることを示す。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking neuron networks have been used successfully to solve simple
reinforcement learning tasks with continuous action set applying learning rules
based on spike-timing-dependent plasticity (STDP). However, most of these
models cannot be applied to reinforcement learning tasks with discrete action
set since they assume that the selected action is a deterministic function of
firing rate of neurons, which is continuous. In this paper, we propose a new
STDP-based learning rule for spiking neuron networks which contains feedback
modulation. We show that the STDP-based learning rule can be used to solve
reinforcement learning tasks with discrete action set at a speed similar to
standard reinforcement learning algorithms when applied to the CartPole and
LunarLander tasks. Moreover, we demonstrate that the agent is unable to solve
these tasks if feedback modulation is omitted from the learning rule. We
conclude that feedback modulation allows better credit assignment when only the
units contributing to the executed action and TD error participate in learning.
- Abstract(参考訳): スパイキングニューロンネットワークは、スパイク刺激依存的可塑性(STDP)に基づく学習規則を適用した、単純な強化学習タスクの解決に成功している。
しかし、これらのモデルのほとんどは、選択されたアクションが連続的なニューロンの発射速度の決定論的関数であると仮定するため、離散的なアクションセットを持つ強化学習タスクには適用できない。
本稿では,フィードバック変調を含むスパイクニューロンネットワークのためのSTDPに基づく新しい学習ルールを提案する。
本稿では,STDPに基づく学習ルールを用いて,CartPoleタスクやLunarLanderタスクに適用した場合に,標準強化学習アルゴリズムと同様の速度で離散的な動作をセットした強化学習タスクを解くことができることを示す。
さらに,学習規則からフィードバック変調を省略した場合,エージェントはこれらの課題を解決できないことを示す。
フィードバック変調は、実行されたアクションとtdエラーに寄与するユニットのみが学習に参加する場合に、より良いクレジット割り当てを可能にすると結論づける。
関連論文リスト
- Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - HaLP: Hallucinating Latent Positives for Skeleton-based Self-Supervised
Learning of Actions [69.14257241250046]
ラベルなしの骨格に基づく行動認識のためのモデル学習のための新しいコントラスト学習手法を提案する。
私たちの重要な貢献は、単純なモジュールであるHalucinate Latent Positivesのコントラスト学習へのHalucinate HaLPです。
実験を通して、標準のコントラスト学習フレームワーク内でこれらの生成した正を使用すれば、一貫した改善がもたらされることを示す。
論文 参考訳(メタデータ) (2023-04-01T21:09:43Z) - Dynamically Modular and Sparse General Continual Learning [13.976220447055521]
リハーサルに基づく一般連続学習のための動的モジュラリティと疎度(ダイナモス)を導入する。
本手法は,ニューロンのサブセットを活性化し,刺激の類似性に応じて重なり合うことで再利用性を維持しつつ,モジュラーと特殊性のある表現を学習することを示す。
論文 参考訳(メタデータ) (2023-01-02T12:24:24Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - STDP enhances learning by backpropagation in a spiking neural network [0.0]
提案手法は,少量のラベル付きデータを使用する場合,ラベル付けを加味せずに精度を向上する。
イベント駆動システムのための学習手法を提案することができる。
論文 参考訳(メタデータ) (2021-02-21T06:55:02Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z) - Continual Learning with Node-Importance based Adaptive Group Sparse
Regularization [30.23319528662881]
AGS-CL(Adaptive Group Sparsity based Continual Learning)と呼ばれる新しい正規化に基づく連続学習手法を提案する。
提案手法は,各ノードが重要度に基づいて学習する際の2つの罰則を選択的に利用し,各タスクを学習した後に適応的に更新する。
論文 参考訳(メタデータ) (2020-03-30T18:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。