論文の概要: Noise-based reward-modulated learning
- arxiv url: http://arxiv.org/abs/2503.23972v3
- Date: Tue, 04 Nov 2025 16:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.1418
- Title: Noise-based reward-modulated learning
- Title(参考訳): 雑音に基づく報酬変調学習
- Authors: Jesús García Fernández, Nasir Ahmad, Marcel van Gerven,
- Abstract要約: 雑音に基づく報酬変調学習は、新しいシナプス的可塑性規則である。
NRLはバックプロパゲーションを用いて最適化されたベースラインに匹敵する性能を示す。
その結果,低消費電力適応システムにおける雑音駆動型脳誘発学習の可能性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 1.0851051226732167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pursuit of energy-efficient and adaptive artificial intelligence (AI) has positioned neuromorphic computing as a promising alternative to conventional computing. However, achieving learning on these platforms requires techniques that prioritize local information while enabling effective credit assignment. Here, we propose noise-based reward-modulated learning (NRL), a novel synaptic plasticity rule that mathematically unifies reinforcement learning and gradient-based optimization with biologically-inspired local updates. NRL addresses the computational bottleneck of exact gradients by approximating them through stochastic neural activity, transforming the inherent noise of biological and neuromorphic substrates into a functional resource. Drawing inspiration from biological learning, our method uses reward prediction errors as its optimization target to generate increasingly advantageous behavior, and eligibility traces to facilitate retrospective credit assignment. Experimental validation on reinforcement tasks, featuring immediate and delayed rewards, shows that NRL achieves performance comparable to baselines optimized using backpropagation, although with slower convergence, while showing significantly superior performance and scalability in multi-layer networks compared to reward-modulated Hebbian learning (RMHL), the most prominent similar approach. While tested on simple architectures, the results highlight the potential of noise-driven, brain-inspired learning for low-power adaptive systems, particularly in computing substrates with locality constraints. NRL offers a theoretically grounded paradigm well-suited for the event-driven characteristics of next-generation neuromorphic AI.
- Abstract(参考訳): エネルギー効率と適応人工知能(AI)の追求は、ニューロモルフィックコンピューティングを従来のコンピューティングに代わる有望な代替手段として位置づけている。
しかし、これらのプラットフォームで学習を実現するには、効果的なクレジット代入を可能にしながら、ローカル情報を優先する技術が必要である。
本稿では, 雑音に基づく報酬変調学習(NRL)を提案する。これは, 生物学的に着想を得た局所的更新による強化学習と勾配に基づく最適化を数学的に統一する, 新たなシナプス的可塑性則である。
NRLは、確率的神経活動を通じてそれらを近似し、生物学的およびニューロモルフィック基質の固有のノイズを機能的資源に変換することによって、正確な勾配の計算的ボトルネックに対処する。
本手法は,生物学習からインスピレーションを得て,報酬予測誤差を最適化対象とし,より有利な行動を生成する。
即時および遅延した報酬を特徴とする強化タスクに対する実験的検証は、NRLがバックプロパゲーションを用いて最適化されたベースラインに匹敵する性能を達成していることを示しているが、収束は遅いが、最も顕著な類似したアプローチである報奨変調 Hebbian Learning (RMHL) と比較して、多層ネットワークの性能とスケーラビリティは著しく優れている。
単純なアーキテクチャでテストした結果は、特に局所性制約のある計算基板において、低電力適応システムに対するノイズ駆動、脳にインスパイアされた学習の可能性を強調している。
NRLは、次世代のニューロモーフィックAIの事象駆動特性によく適合する理論的な基礎のパラダイムを提供する。
関連論文リスト
- Learning to Control Dynamical Agents via Spiking Neural Networks and Metropolis-Hastings Sampling [1.0533738606966752]
Spiking Neural Networks(SNN)は、リアルタイム制御システムのための従来のDeep Neural Networks(DNN)に代わる、生物学的にインスパイアされたエネルギー効率の高い代替手段を提供する。
ベイズ推論手法であるメトロポリス・ハスティングスサンプリングを用いて,RL環境における動的エージェント制御のためのSNNのトレーニングを行う最初のフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-07-13T08:50:00Z) - Fast Training of Recurrent Neural Networks with Stationary State Feedbacks [48.22082789438538]
リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。
BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T14:45:52Z) - Randomized Forward Mode Gradient for Spiking Neural Networks in Scientific Machine Learning [4.178826560825283]
スパイキングニューラルネットワーク(SNN)は、ディープニューラルネットワークの階層的学習能力とスパイクベースの計算のエネルギー効率を組み合わせた、機械学習における有望なアプローチである。
SNNの伝統的なエンドツーエンドトレーニングは、しばしばバックプロパゲーションに基づいており、重み更新はチェーンルールによって計算された勾配から導かれる。
この手法は, 生体適合性に限界があり, ニューロモルフィックハードウェアの非効率性のため, 課題に遭遇する。
本研究では,SNNの代替トレーニング手法を導入する。後方伝搬の代わりに,前方モード内での重量摂動手法を活用する。
論文 参考訳(メタデータ) (2024-11-11T15:20:54Z) - Efficient Training of Deep Neural Operator Networks via Randomized Sampling [0.0]
ディープオペレータネットワーク(DeepNet)は、様々な科学的・工学的応用における複雑な力学のリアルタイム予測に成功している。
本稿では,DeepONetのトレーニングを取り入れたランダムサンプリング手法を提案する。
実験の結果,訓練中にトランクネットワーク入力にランダム化を組み込むことで,DeepONetの効率性と堅牢性が向上し,複雑な物理系のモデリングにおけるフレームワークの性能向上に期待できる道筋が得られた。
論文 参考訳(メタデータ) (2024-09-20T07:18:31Z) - Gradient-Free Training of Recurrent Neural Networks using Random Perturbations [1.1742364055094265]
リカレントニューラルネットワーク(RNN)は、チューリング完全性とシーケンシャルな処理能力のために、計算の潜在能力を秘めている。
時間によるバックプロパゲーション(BPTT)は、時間とともにRNNをアンロールすることでバックプロパゲーションアルゴリズムを拡張する。
BPTTは、前方と後方のフェーズをインターリーブし、正確な勾配情報を格納する必要があるなど、大きな欠点に悩まされている。
BPTTと競合するRNNにおける摂動学習に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-14T21:15:29Z) - Real-Time Recurrent Reinforcement Learning [7.737685867200335]
部分観測可能なマルコフ決定過程(POMDP)における課題解決のための生物学的に妥当なRLフレームワークを提案する。
提案アルゴリズムは,(1)哺乳類の基底神経節に類似したMeta-RLアーキテクチャ,(2)時間差学習と適応性トレースを利用した生物学的に妥当な強化学習アルゴリズム,(3)共有されたリカレントネットワークバックボーンのパラメータに関する勾配を計算するオンライン自動微分アルゴリズムの3つの積分部分を組み合わせた。
論文 参考訳(メタデータ) (2023-11-08T16:56:16Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
ニューラルネットワークのような予測器のための新しいトレーニング原理であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決へのそれぞれの貢献に基づいて、個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分を補強し,有害な部分を弱めるという欲求的アプローチを実現する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Properties and Potential Applications of Random Functional-Linked Types
of Neural Networks [81.56822938033119]
ランダム関数リンクニューラルネットワーク(RFLNN)は、深い構造を学習する別の方法を提供する。
本稿では周波数領域の観点からRFLNNの特性について考察する。
本稿では,より優れた性能でBLSネットワークを生成する手法を提案し,ポゾン方程式を解くための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-03T13:25:22Z) - Minimizing Control for Credit Assignment with Strong Feedback [65.59995261310529]
ディープニューラルネットワークにおける勾配に基づくクレジット割り当ての現在の手法は、無限小のフィードバック信号を必要とする。
我々は、神経活動に対する強いフィードバックと勾配に基づく学習を組み合わせることで、ニューラルネットワークの最適化に関する新たな視点を自然に導き出すことを示す。
DFCにおける強いフィードバックを用いることで、空間と時間において完全に局所的な学習規則を用いることで、前向きとフィードバックの接続を同時に学習できることを示す。
論文 参考訳(メタデータ) (2022-04-14T22:06:21Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Analytically Tractable Bayesian Deep Q-Learning [0.0]
我々は時間差Q-ラーニングフレームワークを適応させ、抽出可能な近似ガウス推論(TAGI)と互換性を持たせる。
我々は,TAGIがバックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。
論文 参考訳(メタデータ) (2021-06-21T13:11:52Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。