論文の概要: Reinforcement Learning with Brain-Inspired Modulation can Improve
Adaptation to Environmental Changes
- arxiv url: http://arxiv.org/abs/2205.09729v1
- Date: Thu, 19 May 2022 17:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:30:10.462654
- Title: Reinforcement Learning with Brain-Inspired Modulation can Improve
Adaptation to Environmental Changes
- Title(参考訳): 脳刺激による強化学習は環境変化への適応を改善する
- Authors: Eric Chalmers and Artur Luczak
- Abstract要約: 我々は、最近提案されたニューロン学習規則に基づいて、各ニューロンが将来の活動を予測することで、エネルギーバランスを最適化できると仮定する。
我々は、類似の強化学習規則は、報酬予測誤差を変調するために行動確率を使用すると論じる。
新しいルールは、アルゴリズムが人間のような方法で変化に適応できるようにする重要な要素である生物学的知性の中核的な原則をカプセル化している。
- 参考スコア(独自算出の注目度): 0.9137554315375919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developments in reinforcement learning (RL) have allowed algorithms to
achieve impressive performance in highly complex, but largely static problems.
In contrast, biological learning seems to value efficiency of adaptation to a
constantly-changing world. Here we build on a recently-proposed neuronal
learning rule that assumes each neuron can optimize its energy balance by
predicting its own future activity. That assumption leads to a neuronal
learning rule that uses presynaptic input to modulate prediction error. We
argue that an analogous RL rule would use action probability to modulate reward
prediction error. This modulation makes the agent more sensitive to negative
experiences, and more careful in forming preferences. We embed the proposed
rule in both tabular and deep-Q-network RL algorithms, and find that it
outperforms conventional algorithms in simple, but highly-dynamic tasks. We
suggest that the new rule encapsulates a core principle of biological
intelligence; an important component for allowing algorithms to adapt to change
in a human-like way.
- Abstract(参考訳): 強化学習(RL)の開発により、アルゴリズムは非常に複雑ながほとんど静的な問題で優れた性能を達成できるようになった。
対照的に生物学的学習は、常に変化する世界への適応の効率を重んじているようだ。
ここでは、最近提案されたニューロン学習規則に基づいて、各ニューロンが将来の活動を予測することで、エネルギーバランスを最適化できると仮定する。
この仮定は、シナプス前の入力を使って予測誤差を変調する神経学習規則につながる。
類似のRL規則は、報酬予測誤差を変調するために行動確率を用いる。
この変調により、エージェントはネガティブな経験に敏感になり、好みを形成するのにより慎重になる。
提案するルールを表型および深層ネットワークrlアルゴリズムに組み込むことにより,従来のアルゴリズムよりも単純だがダイナミックなタスクで優れていることを示す。
新しいルールは、アルゴリズムが人間のような方法で変化に適応するための重要な構成要素である、生物学的知性の中核的な原則をカプセル化することを提案する。
関連論文リスト
- Task adaption by biologically inspired stochastic comodulation [8.59194778459436]
我々は、利得変調による微調整畳み込みネットワークが、決定論的利得変調を改善することを示す。
この結果から,コモディレーション表現はマルチタスク学習における学習効率と性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-25T15:21:03Z) - Prime and Modulate Learning: Generation of forward models with signed
back-propagation and environmental cues [0.0]
エラーバックプロパゲーションを学習に用いたディープニューラルネットワークは、爆発や勾配問題の解消に悩まされる可能性がある。
この研究では、バックプロパゲーションがエラー信号の符号を排他的に利用して学習を素数化する、別のアプローチに従う。
本稿では,z空間における学習規則の数学的導出と,ロボットプラットフォームによるリアルタイム性能の実証を行う。
論文 参考訳(メタデータ) (2023-09-07T16:34:30Z) - Incorporating Neuro-Inspired Adaptability for Continual Learning in
Artificial Intelligence [59.11038175596807]
継続的な学習は、現実世界に強い適応性を持つ人工知能を強化することを目的としている。
既存の進歩は主に、破滅的な忘れを克服するために記憶安定性を維持することに焦点を当てている。
本稿では,学習の可塑性を改善するため,パラメータ分布の古い記憶を適切に減衰させる汎用的手法を提案する。
論文 参考訳(メタデータ) (2023-08-29T02:43:58Z) - The least-control principle for learning at equilibrium [65.2998274413952]
我々は、平衡反復ニューラルネットワーク、深層平衡モデル、メタラーニングを学ぶための新しい原理を提案する。
私たちの結果は、脳がどのように学習するかを明らかにし、幅広い機械学習問題にアプローチする新しい方法を提供します。
論文 参考訳(メタデータ) (2022-07-04T11:27:08Z) - Learning to Modulate Random Weights: Neuromodulation-inspired Neural
Networks For Efficient Continual Learning [1.9580473532948401]
生体神経系における神経調節にインスパイアされた新しいニューラルネットワークアーキテクチャを導入する。
学習可能なパラメータが極めて少ないにもかかわらず,本手法はタスク毎の学習性能が極めて高いことを示す。
論文 参考訳(メタデータ) (2022-04-08T21:12:13Z) - Biologically-inspired neuronal adaptation improves learning in neural
networks [0.7734726150561086]
人間は今でも、多くのタスクで人工知能よりも優れています。
私たちは、機械学習アルゴリズムを改善するために、脳からインスピレーションを受けています。
我々はMNISTとCIFAR-10で訓練された多層パーセプトロンと畳み込みニューラルネットワークに適応する。
論文 参考訳(メタデータ) (2022-04-08T16:16:02Z) - Credit Assignment in Neural Networks through Deep Feedback Control [59.14935871979047]
ディープフィードバックコントロール(Deep Feedback Control, DFC)は、フィードバックコントローラを使用して、望ましい出力ターゲットにマッチするディープニューラルネットワークを駆動し、クレジット割り当てに制御信号を使用する新しい学習方法である。
学習規則は空間と時間において完全に局所的であり、幅広い接続パターンに対するガウス・ニュートンの最適化を近似する。
さらに,DFCと皮質錐体ニューロンのマルチコンパートメントモデルと,局所的な電圧依存性のシナプス可塑性規則を関連づける。
論文 参考訳(メタデータ) (2021-06-15T05:30:17Z) - Relaxing the Constraints on Predictive Coding Models [62.997667081978825]
予測符号化(英: Predictive coding)は、脳が行う主計算が予測誤差の最小化であるとする皮質機能の影響力のある理論である。
アルゴリズムの標準的な実装は、同じ前方と後方の重み、後方の非線形微分、1-1エラーユニット接続といった、潜在的に神経的に予測できない特徴を含んでいる。
本稿では,これらの特徴はアルゴリズムに不可欠なものではなく,Hebbianの更新ルールを用いてパラメータセットを直接あるいは学習することで,学習性能に悪影響を及ぼすことなく除去可能であることを示す。
論文 参考訳(メタデータ) (2020-10-02T15:21:37Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Evolving Inborn Knowledge For Fast Adaptation in Dynamic POMDP Problems [5.23587935428994]
本稿では,POMDPにおける自己エンコーダの潜伏空間を利用した制御器を進化させるために,ニューラルネットワークの高度適応性を利用する。
生まれながらの知識とオンラインの可塑性の統合は、進化的でないメタ強化学習アルゴリズムと比較して、迅速な適応と性能の向上を可能にした。
論文 参考訳(メタデータ) (2020-04-27T14:55:08Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。