論文の概要: Learning to Control Dynamical Agents via Spiking Neural Networks and Metropolis-Hastings Sampling
- arxiv url: http://arxiv.org/abs/2507.09540v1
- Date: Sun, 13 Jul 2025 08:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.46452
- Title: Learning to Control Dynamical Agents via Spiking Neural Networks and Metropolis-Hastings Sampling
- Title(参考訳): スパイクニューラルネットワークとメトロポリス・ハスティングによる動的エージェントの制御
- Authors: Ali Safa, Farida Mohsen, Ali Al-Zawqari,
- Abstract要約: Spiking Neural Networks(SNN)は、リアルタイム制御システムのための従来のDeep Neural Networks(DNN)に代わる、生物学的にインスパイアされたエネルギー効率の高い代替手段を提供する。
ベイズ推論手法であるメトロポリス・ハスティングスサンプリングを用いて,RL環境における動的エージェント制御のためのSNNのトレーニングを行う最初のフレームワークについて紹介する。
- 参考スコア(独自算出の注目度): 1.0533738606966752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spiking Neural Networks (SNNs) offer biologically inspired, energy-efficient alternatives to traditional Deep Neural Networks (DNNs) for real-time control systems. However, their training presents several challenges, particularly for reinforcement learning (RL) tasks, due to the non-differentiable nature of spike-based communication. In this work, we introduce what is, to our knowledge, the first framework that employs Metropolis-Hastings (MH) sampling, a Bayesian inference technique, to train SNNs for dynamical agent control in RL environments without relying on gradient-based methods. Our approach iteratively proposes and probabilistically accepts network parameter updates based on accumulated reward signals, effectively circumventing the limitations of backpropagation while enabling direct optimization on neuromorphic platforms. We evaluated this framework on two standard control benchmarks: AcroBot and CartPole. The results demonstrate that our MH-based approach outperforms conventional Deep Q-Learning (DQL) baselines and prior SNN-based RL approaches in terms of maximizing the accumulated reward while minimizing network resources and training episodes.
- Abstract(参考訳): Spiking Neural Networks(SNN)は、リアルタイム制御システムのための従来のDeep Neural Networks(DNN)に代わる、生物学的にインスパイアされたエネルギー効率の高い代替手段を提供する。
しかし,特に強化学習(RL)の課題は,スパイクベース通信の非差別性に起因する。
本研究では,ベイジアン推論手法であるメトロポリス・ハスティングス(MH)サンプリングを利用した最初のフレームワークである,我々の知識に則って,勾配に基づく手法に頼ることなく,RL環境における動的エージェント制御のためのSNNを訓練する手法を紹介する。
提案手法は,蓄積された報酬信号に基づいてネットワークパラメータの更新を反復的かつ確率的に受け付け,ニューロモルフィックプラットフォーム上での直接最適化を実現しつつ,バックプロパゲーションの限界を効果的に回避するものである。
このフレームワークを、AcroBotとCartPoleの2つの標準制御ベンチマークで評価した。
その結果,我々のMHベースのアプローチは,ネットワークリソースの最小化とトレーニングエピソードの最大化という観点から,従来のディープQラーニング(DQL)ベースラインと,それ以前のSNNベースのRLアプローチよりも優れていた。
関連論文リスト
- SpikeRL: A Scalable and Energy-efficient Framework for Deep Spiking Reinforcement Learning [1.6999370482438731]
SpikeRLは、DeepRLベースのSNNのためのスケーラブルでエネルギー効率のよいフレームワークである。
新しいSpikeRLの実装は、最先端のDeepRL-SNN法よりも4.26倍高速で、2.25倍エネルギー効率が高い。
論文 参考訳(メタデータ) (2025-02-21T05:28:42Z) - Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - Properties and Potential Applications of Random Functional-Linked Types
of Neural Networks [81.56822938033119]
ランダム関数リンクニューラルネットワーク(RFLNN)は、深い構造を学習する別の方法を提供する。
本稿では周波数領域の観点からRFLNNの特性について考察する。
本稿では,より優れた性能でBLSネットワークを生成する手法を提案し,ポゾン方程式を解くための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-03T13:25:22Z) - POLAR-Express: Efficient and Precise Formal Reachability Analysis of
Neural-Network Controlled Systems [18.369115196505657]
ニューラルネットワーク制御システム(NNCS)の安全性を検証するための,効率的かつ正確な形式的到達性解析ツールであるPOLAR-Expressを提案する。
POLAR-ExpressはTaylorモデル演算を用いて、ニューラルネットワーク層間でTaylorモデルを伝搬し、ニューラルネットワーク関数の過剰近似を計算する。
また, ReLU 活性化関数に対して, TM をより効率的に正確に伝播するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-31T06:51:36Z) - An Unsupervised STDP-based Spiking Neural Network Inspired By
Biologically Plausible Learning Rules and Connections [10.188771327458651]
スパイク刺激依存性可塑性(STDP)は脳の一般的な学習規則であるが、STDPだけで訓練されたスパイクニューラルネットワーク(SNN)は非効率であり、性能が良くない。
我々は適応的なシナプスフィルタを設計し、SNNの表現能力を高めるために適応的なスパイキングしきい値を導入する。
我々のモデルは、MNISTおよびFashionMNISTデータセットにおける教師なしSTDPベースのSNNの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-06T14:53:32Z) - Spiking Generative Adversarial Networks With a Neural Network
Discriminator: Local Training, Bayesian Models, and Continual Meta-Learning [31.78005607111787]
スパイキングパターンを再現するためにニューラルネットワークを訓練することは、ニューロモルフィックコンピューティングにおける中心的な問題である。
この研究は、個々のスパイキング信号ではなく、スパイキング信号にマッチするようにSNNを訓練することを提案する。
論文 参考訳(メタデータ) (2021-11-02T17:20:54Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z) - Indirect and Direct Training of Spiking Neural Networks for End-to-End
Control of a Lane-Keeping Vehicle [12.137685936113384]
生物学的シナプス可塑性に基づくスパイクニューラルネットワーク(SNN)の構築は、高速でエネルギー効率のよい計算を実現するための有望な可能性を秘めている。
本稿では,車線維持車両におけるSNNの間接的および直接的エンドツーエンドのトレーニング手法について紹介する。
論文 参考訳(メタデータ) (2020-03-10T09:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。