論文の概要: Signal-Adaptive Trust Regions for Gradient-Free Optimization of Recurrent Spiking Neural Networks
- arxiv url: http://arxiv.org/abs/2601.21572v1
- Date: Thu, 29 Jan 2026 11:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.772393
- Title: Signal-Adaptive Trust Regions for Gradient-Free Optimization of Recurrent Spiking Neural Networks
- Title(参考訳): リカレントスパイキングニューラルネットワークの勾配自由最適化のための信号適応信頼領域
- Authors: Jinhao Li, Yuhao Sun, Zhiyuan Ma, Hao He, Xinche Zhang, Xing Chen, Jin Li, Sen Song,
- Abstract要約: 推定信号エネルギーによって正規化されるKL分散を束縛することで相対的変化を制約する分布更新則を提案する。
本研究では,RSNN最適化に強い経験的性能を示したベルヌーイ接続分布に対するSATRのインスタンス化を行う。
SATRを大規模に実用化するために、二進スパイクと二進重みのビットセット実装を導入する。
- 参考スコア(独自算出の注目度): 16.009596458274952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent spiking neural networks (RSNNs) are a promising substrate for energy-efficient control policies, but training them for high-dimensional, long-horizon reinforcement learning remains challenging. Population-based, gradient-free optimization circumvents backpropagation through non-differentiable spike dynamics by estimating gradients. However, with finite populations, high variance of these estimates can induce harmful and overly aggressive update steps. Inspired by trust-region methods in reinforcement learning that constrain policy updates in distribution space, we propose \textbf{Signal-Adaptive Trust Regions (SATR)}, a distributional update rule that constrains relative change by bounding KL divergence normalized by an estimated signal energy. SATR automatically expands the trust region under strong signals and contracts it when updates are noise-dominated. We instantiate SATR for Bernoulli connectivity distributions, which have shown strong empirical performance for RSNN optimization. Across a suite of high-dimensional continuous-control benchmarks, SATR improves stability under limited populations and reaches competitive returns against strong baselines including PPO-LSTM. In addition, to make SATR practical at scale, we introduce a bitset implementation for binary spiking and binary weights, substantially reducing wall-clock training time and enabling fast RSNN policy search.
- Abstract(参考訳): リカレントスパイキングニューラルネットワーク(RSNN)は、エネルギー効率の高い制御ポリシーのための有望な基盤であるが、高次元の長距離強化学習のためのトレーニングは依然として難しい。
人口ベースで勾配のない最適化は、勾配を推定することによって、微分不可能なスパイクダイナミクスによるバックプロパゲーションを回避する。
しかし、人口が有限であれば、これらの推定値のばらつきは有害で過度に攻撃的な更新ステップを引き起こす可能性がある。
分布空間におけるポリシー更新を制約する強化学習における信頼領域法に着想を得て,推定信号エネルギーによって正規化されたKL分散を束縛することで相対変化を制限する分布更新規則である「SATR」を提案する。
SATRは、信頼領域を強い信号の下で自動的に拡張し、更新がノイズに支配されたときに契約する。
本研究では,RSNN最適化に強い経験的性能を示したベルヌーイ接続分布に対するSATRのインスタンス化を行う。
高次元連続制御ベンチマークのスイート全体で、SATRは限られた人口下での安定性を改善し、PPO-LSTMを含む強力なベースラインに対して競合するリターンに達する。
さらに,SATRを大規模に実用化するために,二分スパイクと二分重のビットセット実装を導入し,ウォールタイムのトレーニング時間を大幅に短縮し,高速なRSNNポリシー探索を実現する。
関連論文リスト
- In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior [53.21550098214227]
テキスト内強化学習は、パラメータを更新せずに、目に見えない環境への高速な適応を約束する。
本研究では,ベイズ ICRL 法である SPICE を導入し,その事前値を深層アンサンブルで学習し,テスト時に更新する。
本研究は,SPICEが準最適軌道のみに事前訓練した場合でも,帯域幅と有限水平MDPの両方において,後悔と最適動作を達成できることを証明した。
論文 参考訳(メタデータ) (2026-01-06T13:41:31Z) - Scaling up Stability: Reinforcement Learning for Distributed Control of Networked Systems in the Space of Stabilizing Policies [0.49109372384514843]
本稿では,グラフニューラルネットワーク(GNN)をユーラ様の等級方向パラメータ化に組み込むポリシパラメータ化を提案する。
この大きさは、乱れフィードバックに作用するGNNと、局所的な観測に作用するGNNからなる安定作用素として実装される。
実験により、小さなネットワークで訓練されたポリシーは、より大きなネットワークと見えないネットワークトポロジに直接転送し、最先端のMARLベースラインよりも高いリターンと低い分散を達成することが示された。
論文 参考訳(メタデータ) (2025-12-20T23:35:07Z) - Plug-and-Play Homeostatic Spark: Zero-Cost Acceleration for SNN Training Across Paradigms [40.57310813106791]
スパイキングニューラルネットワークは、イベント駆動計算、スパースアクティベーション、ハードウェア効率を提供するが、トレーニングはしばしばゆっくりと収束し、安定性に欠ける。
AHSAR(Adaptive Homeostatic Spiking Activity Regulation)は,超簡易なプラグインおよびトレーニングパラダイムである。
AHSARは最適化を安定化し、モデルアーキテクチャや損失、勾配を変更することなく収束を加速する。
論文 参考訳(メタデータ) (2025-12-04T17:26:46Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Local Pairwise Distance Matching for Backpropagation-Free Reinforcement Learning [0.9065034043031668]
強化学習(RL)を用いたニューラルネットワークのトレーニングは一般的にバックプロパゲーション(BP)に依存している
BPは後続の更新のためにフォワードパスからのアクティベーションを格納する必要がある。
本稿では、RL設定において、前部パス中の局所信号を用いてニューラルネットワークの各層をトレーニングする新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-15T14:39:41Z) - Conformal Symplectic Optimization for Stable Reinforcement Learning [21.491621524500736]
相対論的運動エネルギーを利用することで、RADは特殊相対性理論と制限パラメータの更新を有限速以下に取り入れ、異常な影響を効果的に緩和する。
特にRADは155.1%のパフォーマンス向上を実現しており、アタリゲームのトレーニングにおける有効性を示している。
論文 参考訳(メタデータ) (2024-12-03T09:07:31Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。