論文の概要: Action-modulated midbrain dopamine activity arises from distributed
control policies
- arxiv url: http://arxiv.org/abs/2207.00636v1
- Date: Fri, 1 Jul 2022 19:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 12:36:06.035175
- Title: Action-modulated midbrain dopamine activity arises from distributed
control policies
- Title(参考訳): 行動調節中脳ドーパミン活性は分散制御政策から生じる
- Authors: Jack Lindsey, Ashok Litwin-Kumar
- Abstract要約: 基礎神経節における非政治的強化学習の生物学的モデルを提案する。
このモデルはドーパミン活性の作用関連調節に関与している。
完全にあるいは一部が他のポリシーによって駆動されるデータから学ぶことができる。
- 参考スコア(独自算出の注目度): 9.51828574518325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animal behavior is driven by multiple brain regions working in parallel with
distinct control policies. We present a biologically plausible model of
off-policy reinforcement learning in the basal ganglia, which enables learning
in such an architecture. The model accounts for action-related modulation of
dopamine activity that is not captured by previous models that implement
on-policy algorithms. In particular, the model predicts that dopamine activity
signals a combination of reward prediction error (as in classic models) and
"action surprise," a measure of how unexpected an action is relative to the
basal ganglia's current policy. In the presence of the action surprise term,
the model implements an approximate form of Q-learning. On benchmark navigation
and reaching tasks, we show empirically that this model is capable of learning
from data driven completely or in part by other policies (e.g. from other brain
regions). By contrast, models without the action surprise term suffer in the
presence of additional policies, and are incapable of learning at all from
behavior that is completely externally driven. The model provides a
computational account for numerous experimental findings about dopamine
activity that cannot be explained by classic models of reinforcement learning
in the basal ganglia. These include differing levels of action surprise signals
in dorsal and ventral striatum, decreasing amounts movement-modulated dopamine
activity with practice, and representations of action initiation and kinematics
in dopamine activity. It also provides further predictions that can be tested
with recordings of striatal dopamine activity.
- Abstract(参考訳): 動物行動は、異なる制御ポリシーと並行して働く複数の脳領域によって駆動される。
そこで本研究では,基礎神経節におけるオフポリシー強化学習の生物学的に妥当なモデルを提案する。
このモデルは、オンポリシーアルゴリズムを実装した以前のモデルでは捉えられていないドーパミン活性の作用に関連した変調を特徴としている。
特に、このモデルはドーパミン活性が報酬予測誤差(古典的なモデルのように)と「アクション・サプライズ」(アクション・サプライズ)を組み合わせることを予測している。
アクションサプライズ項の存在下では、モデルはQ-ラーニングの近似形式を実装している。
ベンチマークナビゲーションと到達タスクにおいて、このモデルは、他のポリシー(例えば、他の脳領域から)によって完全にまたは部分的に駆動されたデータから学習できることを実証的に示す。
対照的に、アクションサプライズ用語のないモデルは、追加のポリシーの存在下で苦しめられ、外部から完全に駆動される行動から全く学習できない。
このモデルは、基底神経節の強化学習の古典的なモデルでは説明できないドーパミン活性に関する多くの実験結果の計算的説明を提供する。
これには、背側線条体および腹側線条体における行動サプライズ信号の異なるレベル、練習中の運動調節ドーパミンの量の減少、ドーパミン活性における行動開始および運動の表現が含まれる。
また、線条体ドーパミン活性の記録でテストできるさらなる予測も提供する。
関連論文リスト
- Neural DNF-MT: A Neuro-symbolic Approach for Learning Interpretable and Editable Policies [51.03989561425833]
本稿では、エンドツーエンドポリシー学習のためのニューラルDNF-MTと呼ばれるニューラルシンボリックアプローチを提案する。
ニューラルDNF-MTモデルの微分可能な性質は、訓練にディープアクター批判アルゴリズムを使用することを可能にする。
決定論的ポリシーの2値表現をどのように編集し、ニューラルモデルに組み込むかを示す。
論文 参考訳(メタデータ) (2025-01-07T15:51:49Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - BLEND: Behavior-guided Neural Population Dynamics Modeling via Privileged Knowledge Distillation [6.3559178227943764]
本稿では,特権的知識蒸留による行動誘導型ニューラル人口動態モデリングフレームワークBLENDを提案する。
特権情報として行動を考えることにより、行動観察(私的特徴)と神経活動(正規特徴)の両方を入力として扱う教師モデルを訓練する。
学生モデルは神経活動のみを用いて蒸留される。
論文 参考訳(メタデータ) (2024-10-02T12:45:59Z) - Active Inference and Intentional Behaviour [40.19132448481507]
理論生物学の最近の進歩は、基底認知と知覚的行動がin vitro細胞培養と神経ネットワークの創発的特性であることを示唆している。
我々は、自由エネルギー原理のレンズを通して、この種の自己組織化を自己認識として特徴づける。
シミュレーションを用いて,これらの形態(反応性,感性,意図的)について検討する。
論文 参考訳(メタデータ) (2023-12-06T09:38:35Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - A Neural Active Inference Model of Perceptual-Motor Learning [62.39667564455059]
アクティブ推論フレームワーク(英: active inference framework、AIF)は、現代の神経科学を基盤とした、有望な新しい計算フレームワークである。
本研究では,ヒトの視覚行動指導において,AIFが期待する役割を捉える能力をテストする。
本稿では,多次元世界状態から自由エネルギーの一次元分布にマッピングする先行関数の新たな定式化について述べる。
論文 参考訳(メタデータ) (2022-11-16T20:00:38Z) - Inference of Affordances and Active Motor Control in Simulated Agents [0.5161531917413706]
本稿では,出力確率,時間的予測,モジュール型人工ニューラルネットワークアーキテクチャを提案する。
我々のアーキテクチャは、割当マップと解釈できる潜在状態が発達していることを示す。
アクティブな推論と組み合わせることで、フレキシブルでゴール指向の動作が実行可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T14:13:04Z) - Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study [0.0]
本稿では,創発的エージェント行動の生成にReinforcement Learningを適用する方法について検討する。
一連のシミュレーションを行ない, エージェントが実世界の知的適応行動の特性を示す方法として, プロクサマルポリシー最適化アルゴリズムを用いて訓練されたことを実証した。
論文 参考訳(メタデータ) (2022-01-04T11:56:11Z) - Overcoming the Domain Gap in Contrastive Learning of Neural Action
Representations [60.47807856873544]
神経科学の基本的な目標は、神経活動と行動の関係を理解することである。
我々は,ハエが自然に生み出す行動からなる新しいマルチモーダルデータセットを作成した。
このデータセットと新しい拡張セットは、神経科学における自己教師あり学習手法の適用を加速することを約束します。
論文 参考訳(メタデータ) (2021-11-29T15:27:51Z) - On the Evolution of Neuron Communities in a Deep Learning Architecture [0.7106986689736827]
本稿では,ディープラーニングに基づく分類モデルのニューロン活性化パターンについて検討する。
コミュニティの品質(モジュラリティ)とエントロピーの両方が、ディープラーニングモデルのパフォーマンスと密接に関連していることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:09:55Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。