論文の概要: Noise-based reward-modulated learning
- arxiv url: http://arxiv.org/abs/2503.23972v2
- Date: Tue, 26 Aug 2025 10:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 15:23:52.288478
- Title: Noise-based reward-modulated learning
- Title(参考訳): 雑音に基づく報酬変調学習
- Authors: Jesús García Fernández, Nasir Ahmad, Marcel van Gerven,
- Abstract要約: 生物学的神経システムは、ノイズのシナプス伝達に依存するにもかかわらず、遅延報酬から効率的に学習する。
本研究では,これらの課題に対処するために,新しい雑音に基づく学習規則を導出する。
その結果,低消費電力適応システムにおける雑音駆動型脳誘発学習の可能性が浮き彫りになった。
- 参考スコア(独自算出の注目度): 1.0851051226732167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological neural systems efficiently learn from delayed rewards despite relying on noisy synaptic transmission and lacking centralized optimization mechanisms. In contrast, artificial neural networks trained with reinforcement learning typically rely on backpropagation (BP), which limits their use in resource-constrained systems or with non-differentiable components. While noise-based alternatives, like reward-modulated Hebbian learning (RMHL), provide a biologically grounded framework for credit assignment, they struggle with temporal delays and hierarchical processing -key challenges in real-world learning. In this work, we derive a novel noise-based learning rule to address these challenges. Drawing inspiration from biological neural circuits, our method uses reward prediction errors as its optimization target to generate increasingly advantageous behavior, and incorporates an eligibility trace to facilitate retrospective credit assignment. Its formulation relies on local information, aligning with biological constraints and enabling neuromorphic implementation. Experimental validation on reinforcement tasks (immediate and delayed rewards) shows our approach significantly outperforms RMHL and achieves performance comparable to BP, although with slower convergence due to its noise-driven updates. While tested on simple architectures, the results highlight the potential of noise-driven, brain-inspired learning for low-power adaptive systems, particularly in scenarios where energy efficiency and biological plausibility are a priority. These findings also offer mechanistic insights into how dopamine-like signals and synaptic stochasticity may jointly enable learning in biological networks, bridging computational models with neurobiological principles.
- Abstract(参考訳): 雑音のシナプス伝達に依存し、集中的な最適化機構が欠如しているにもかかわらず、生物学的ニューラルネットワークは遅延報酬から効率的に学習する。
対照的に、強化学習で訓練された人工ニューラルネットワークは一般的に、リソース制約されたシステムや非微分可能なコンポーネントでの使用を制限するバックプロパゲーション(BP)に依存している。
報酬変調型ヘビアンラーニング(RMHL)のようなノイズベースの代替手段は、生物学的に基礎付けられた信用割り当ての枠組みを提供するが、現実の学習における時間的遅延と階層的な処理に苦労する。
本研究では,これらの課題に対処するために,新しい雑音に基づく学習規則を導出する。
生体神経回路からインスピレーションを得た本手法では、報酬予測誤差を最適化ターゲットとして利用し、より有利な振る舞いを生成するとともに、信頼度トレースを組み込んで、振り返りのクレジット割り当てを促進する。
その定式化は、局所的な情報に依存し、生物学的制約と整合し、ニューロモルフィックな実装を可能にする。
改良作業(即時および遅延報酬)の検証実験により,我々のアプローチはRMHLを著しく上回り,BPに匹敵する性能を示したが,ノイズ駆動型更新により収束が遅くなった。
単純なアーキテクチャでテストしながら、この結果は低電力適応システム、特にエネルギー効率と生物学的妥当性が優先されるシナリオにおいて、ノイズ駆動で脳にインスパイアされた学習の可能性を強調した。
これらの発見はまた、ドーパミンのような信号とシナプス確率が、生物学的ネットワークでの学習を共同で実現し、神経生物学的原理で計算モデルをブリッジする方法に関する機械的な洞察を与える。
関連論文リスト
- Learning to Control Dynamical Agents via Spiking Neural Networks and Metropolis-Hastings Sampling [1.0533738606966752]
Spiking Neural Networks(SNN)は、リアルタイム制御システムのための従来のDeep Neural Networks(DNN)に代わる、生物学的にインスパイアされたエネルギー効率の高い代替手段を提供する。
ベイズ推論手法であるメトロポリス・ハスティングスサンプリングを用いて,RL環境における動的エージェント制御のためのSNNのトレーニングを行う最初のフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-07-13T08:50:00Z) - Fast Training of Recurrent Neural Networks with Stationary State Feedbacks [48.22082789438538]
リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。
BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T14:45:52Z) - Randomized Forward Mode Gradient for Spiking Neural Networks in Scientific Machine Learning [4.178826560825283]
スパイキングニューラルネットワーク(SNN)は、ディープニューラルネットワークの階層的学習能力とスパイクベースの計算のエネルギー効率を組み合わせた、機械学習における有望なアプローチである。
SNNの伝統的なエンドツーエンドトレーニングは、しばしばバックプロパゲーションに基づいており、重み更新はチェーンルールによって計算された勾配から導かれる。
この手法は, 生体適合性に限界があり, ニューロモルフィックハードウェアの非効率性のため, 課題に遭遇する。
本研究では,SNNの代替トレーニング手法を導入する。後方伝搬の代わりに,前方モード内での重量摂動手法を活用する。
論文 参考訳(メタデータ) (2024-11-11T15:20:54Z) - Efficient Training of Deep Neural Operator Networks via Randomized Sampling [0.0]
ディープオペレータネットワーク(DeepNet)は、様々な科学的・工学的応用における複雑な力学のリアルタイム予測に成功している。
本稿では,DeepONetのトレーニングを取り入れたランダムサンプリング手法を提案する。
実験の結果,訓練中にトランクネットワーク入力にランダム化を組み込むことで,DeepONetの効率性と堅牢性が向上し,複雑な物理系のモデリングにおけるフレームワークの性能向上に期待できる道筋が得られた。
論文 参考訳(メタデータ) (2024-09-20T07:18:31Z) - Gradient-Free Training of Recurrent Neural Networks using Random Perturbations [1.1742364055094265]
リカレントニューラルネットワーク(RNN)は、チューリング完全性とシーケンシャルな処理能力のために、計算の潜在能力を秘めている。
時間によるバックプロパゲーション(BPTT)は、時間とともにRNNをアンロールすることでバックプロパゲーションアルゴリズムを拡張する。
BPTTは、前方と後方のフェーズをインターリーブし、正確な勾配情報を格納する必要があるなど、大きな欠点に悩まされている。
BPTTと競合するRNNにおける摂動学習に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-14T21:15:29Z) - Real-Time Recurrent Reinforcement Learning [7.737685867200335]
部分観測可能なマルコフ決定過程(POMDP)における課題解決のための生物学的に妥当なRLフレームワークを提案する。
提案アルゴリズムは,(1)哺乳類の基底神経節に類似したMeta-RLアーキテクチャ,(2)時間差学習と適応性トレースを利用した生物学的に妥当な強化学習アルゴリズム,(3)共有されたリカレントネットワークバックボーンのパラメータに関する勾配を計算するオンライン自動微分アルゴリズムの3つの積分部分を組み合わせた。
論文 参考訳(メタデータ) (2023-11-08T16:56:16Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
ニューラルネットワークのような予測器のための新しいトレーニング原理であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決へのそれぞれの貢献に基づいて、個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分を補強し,有害な部分を弱めるという欲求的アプローチを実現する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Properties and Potential Applications of Random Functional-Linked Types
of Neural Networks [81.56822938033119]
ランダム関数リンクニューラルネットワーク(RFLNN)は、深い構造を学習する別の方法を提供する。
本稿では周波数領域の観点からRFLNNの特性について考察する。
本稿では,より優れた性能でBLSネットワークを生成する手法を提案し,ポゾン方程式を解くための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-03T13:25:22Z) - Minimizing Control for Credit Assignment with Strong Feedback [65.59995261310529]
ディープニューラルネットワークにおける勾配に基づくクレジット割り当ての現在の手法は、無限小のフィードバック信号を必要とする。
我々は、神経活動に対する強いフィードバックと勾配に基づく学習を組み合わせることで、ニューラルネットワークの最適化に関する新たな視点を自然に導き出すことを示す。
DFCにおける強いフィードバックを用いることで、空間と時間において完全に局所的な学習規則を用いることで、前向きとフィードバックの接続を同時に学習できることを示す。
論文 参考訳(メタデータ) (2022-04-14T22:06:21Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Analytically Tractable Bayesian Deep Q-Learning [0.0]
我々は時間差Q-ラーニングフレームワークを適応させ、抽出可能な近似ガウス推論(TAGI)と互換性を持たせる。
我々は,TAGIがバックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。
論文 参考訳(メタデータ) (2021-06-21T13:11:52Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。