論文の概要: Adaptive Surrogate Gradients for Sequential Reinforcement Learning in Spiking Neural Networks
- arxiv url: http://arxiv.org/abs/2510.24461v1
- Date: Tue, 28 Oct 2025 14:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:20.189923
- Title: Adaptive Surrogate Gradients for Sequential Reinforcement Learning in Spiking Neural Networks
- Title(参考訳): スパイクニューラルネットワークにおける逐次強化学習のための適応的サロゲート勾配
- Authors: Korneel Van den Berghe, Stein Stroobants, Vijay Janapa Reddi, G. C. H. E. de Croon,
- Abstract要約: ニューロモルフィックコンピューティングシステムは、オーダー・オブ・マグニチュード効率向上を達成することで、エネルギー制約されたロボットに革命をもたらす。
スパイキングニューラルネットワーク(SNN)は、これらのシステムにとって有望なアルゴリズムアプローチであるが、複雑な制御タスクへの応用には2つの重要な課題がある。
本研究では,学習プロセスのブートストラップに特権的な指導方針を取り入れつつ,スパイクポリシーとオンライン環境の相互作用を生かしながら,新たな訓練手法を提案する。
- 参考スコア(独自算出の注目度): 6.185603604308997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neuromorphic computing systems are set to revolutionize energy-constrained robotics by achieving orders-of-magnitude efficiency gains, while enabling native temporal processing. Spiking Neural Networks (SNNs) represent a promising algorithmic approach for these systems, yet their application to complex control tasks faces two critical challenges: (1) the non-differentiable nature of spiking neurons necessitates surrogate gradients with unclear optimization properties, and (2) the stateful dynamics of SNNs require training on sequences, which in reinforcement learning (RL) is hindered by limited sequence lengths during early training, preventing the network from bridging its warm-up period. We address these challenges by systematically analyzing surrogate gradient slope settings, showing that shallower slopes increase gradient magnitude in deeper layers but reduce alignment with true gradients. In supervised learning, we find no clear preference for fixed or scheduled slopes. The effect is much more pronounced in RL settings, where shallower slopes or scheduled slopes lead to a 2.1x improvement in both training and final deployed performance. Next, we propose a novel training approach that leverages a privileged guiding policy to bootstrap the learning process, while still exploiting online environment interactions with the spiking policy. Combining our method with an adaptive slope schedule for a real-world drone position control task, we achieve an average return of 400 points, substantially outperforming prior techniques, including Behavioral Cloning and TD3BC, which achieve at most --200 points under the same conditions. This work advances both the theoretical understanding of surrogate gradient learning in SNNs and practical training methodologies for neuromorphic controllers demonstrated in real-world robotic systems.
- Abstract(参考訳): ニューロモルフィックコンピューティングシステムは、時間的処理を可能としながら、オーダー・オブ・マグニチュード効率の向上を達成し、エネルギー制約のあるロボットに革命をもたらすように設定されている。
スパイキングニューラルネットワーク(SNN)は、これらのシステムにとって有望なアルゴリズム的アプローチであるが、複雑な制御タスクへの応用には、2つの重要な課題がある:(1)スパイキングニューロンの非微分可能な性質は、不明確な最適化特性を持つ代理勾配を必要とする。
これらの課題に対して,より深い層では浅層勾配が勾配の程度を増大させるが,真の勾配との整合性は低下することを示す。
教師付き学習では、固定あるいはスケジュールされた斜面の明確な選好は見つからない。
この効果はRL設定においてより顕著であり、浅い斜面や予定される斜面はトレーニングと最終配備のパフォーマンスの両方において2.1倍の改善をもたらす。
次に,学習プロセスのブートストラップに特権的指導方針を活用する新たなトレーニング手法を提案する。
本手法と実世界のドローン位置制御タスクの適応的傾きスケジュールを組み合わせることで,400点の平均回帰を達成し,動作クローンやTD3BCなどの先行技術よりも大幅に向上し,最大-200点を同じ条件下で達成する。
この研究は、SNNにおける代理勾配学習の理論的理解と、現実世界のロボットシステムで実証されたニューロモルフィックコントローラの実践的訓練手法の両方を前進させる。
関連論文リスト
- A Self-Ensemble Inspired Approach for Effective Training of Binary-Weight Spiking Neural Networks [66.80058515743468]
トレーニングスパイキングニューラルネットワーク(SNN)とバイナリニューラルネットワーク(BNN)は、差別化不可能なスパイク生成機能のために困難である。
本稿では, バックプロパゲーションプロセスの解析を通じて, SNN の力学とBNN との密接な関係を考察する。
具体的には、複数のショートカットの構造と知識蒸留に基づくトレーニング技術を活用し、(バイナリウェイト)SNNのトレーニングを改善する。
論文 参考訳(メタデータ) (2025-08-18T04:11:06Z) - Gradient-Free Training of Recurrent Neural Networks using Random Perturbations [1.1742364055094265]
リカレントニューラルネットワーク(RNN)は、チューリング完全性とシーケンシャルな処理能力のために、計算の潜在能力を秘めている。
時間によるバックプロパゲーション(BPTT)は、時間とともにRNNをアンロールすることでバックプロパゲーションアルゴリズムを拡張する。
BPTTは、前方と後方のフェーズをインターリーブし、正確な勾配情報を格納する必要があるなど、大きな欠点に悩まされている。
BPTTと競合するRNNにおける摂動学習に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-14T21:15:29Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Dynamics-aware Adversarial Attack of Adaptive Neural Networks [75.50214601278455]
適応型ニューラルネットワークの動的対向攻撃問題について検討する。
本稿では,LGM(Leaded Gradient Method)を提案する。
我々のLGMは、動的無意識攻撃法と比較して、優れた敵攻撃性能を達成している。
論文 参考訳(メタデータ) (2022-10-15T01:32:08Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Natural continual learning: success is a journey, not (just) a
destination [9.462808515258464]
自然継続学習(NCL)は、重み付け正規化と射影勾配降下を統一する新しい手法である。
提案手法は,RNNにおける連続学習問題に適用した場合,標準重み付け正規化手法とプロジェクションベースアプローチの両方に優れる。
トレーニングされたネットワークは、生体回路の実験的な発見と同様に、新しいタスクが学習されると強く保存されるタスク固有ダイナミクスを進化させる。
論文 参考訳(メタデータ) (2021-06-15T12:24:53Z) - Gradient Monitored Reinforcement Learning [0.0]
我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。
本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T13:45:47Z) - Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve
Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。
予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-03-02T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。