論文の概要: Backprop-Free Reinforcement Learning with Active Neural Generative
Coding
- arxiv url: http://arxiv.org/abs/2107.07046v1
- Date: Sat, 10 Jul 2021 19:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-18 12:36:03.112185
- Title: Backprop-Free Reinforcement Learning with Active Neural Generative
Coding
- Title(参考訳): アクティブニューラルネットワークによるバックプロップフリー強化学習
- Authors: Alexander Ororbia, Ankur Mali
- Abstract要約: 動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
- 参考スコア(独自算出の注目度): 84.11376568625353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In humans, perceptual awareness facilitates the fast recognition and
extraction of information from sensory input. This awareness largely depends on
how the human agent interacts with the environment. In this work, we propose
active neural generative coding, a computational framework for learning
action-driven generative models without backpropagation of errors (backprop) in
dynamic environments. Specifically, we develop an intelligent agent that
operates even with sparse rewards, drawing inspiration from the cognitive
theory of planning as inference. We demonstrate on several control problems, in
the online learning setting, that our proposed modeling framework performs
competitively with deep Q-learning models. The robust performance of our agent
offers promising evidence that a backprop-free approach for neural inference
and learning can drive goal-directed behavior.
- Abstract(参考訳): ヒトでは知覚認知は感覚入力から情報の迅速な認識と抽出を促進する。
この認識は、人間のエージェントが環境とどのように相互作用するかに大きく依存する。
本研究では,動的環境における誤りのバックプロパゲーション(backprop)を伴わない動作駆動生成モデル学習のための計算フレームワークであるactive neural generative codingを提案する。
具体的には,計画の認知理論からヒントを得て,少ない報酬でも操作できるインテリジェントエージェントを開発した。
オンライン学習環境では,提案するモデリングフレームワークが深層Q-ラーニングモデルと競合する,いくつかの制御問題を実証する。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
関連論文リスト
- Contrastive Learning in Memristor-based Neuromorphic Systems [55.11642177631929]
スパイクニューラルネットワークは、現代のバックプロパゲーションによって訓練されたディープネットワークに直面する重要な制約の多くを横取りする、ニューロンベースのモデルの重要なファミリーとなっている。
本研究では,前向き・後向き学習のニューロモルフィック形式であるコントラッシブ・シグナル依存型塑性(CSDP)の概念実証を設計し,検討する。
論文 参考訳(メタデータ) (2024-09-17T04:48:45Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Contrastive-Signal-Dependent Plasticity: Self-Supervised Learning in Spiking Neural Circuits [61.94533459151743]
この研究は、スパイキングネットワークのシナプスを調整するための神経生物学的に動機づけられたスキームを設計することの課題に対処する。
我々の実験シミュレーションは、繰り返しスパイクネットワークを訓練する際、他の生物学的に証明可能なアプローチに対して一貫した優位性を示す。
論文 参考訳(メタデータ) (2023-03-30T02:40:28Z) - Reinforcement Learning in an Adaptable Chess Environment for Detecting
Human-understandable Concepts [0.0]
本研究では,自己学習エージェントが学習の過程で内在する概念を探索する手法を示す。
実演では,研究グループに適した高速で軽量な環境において,チェス演奏エージェントを使用する。
論文 参考訳(メタデータ) (2022-11-10T11:48:10Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Inference of Affordances and Active Motor Control in Simulated Agents [0.5161531917413706]
本稿では,出力確率,時間的予測,モジュール型人工ニューラルネットワークアーキテクチャを提案する。
我々のアーキテクチャは、割当マップと解釈できる潜在状態が発達していることを示す。
アクティブな推論と組み合わせることで、フレキシブルでゴール指向の動作が実行可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T14:13:04Z) - A neural net architecture based on principles of neural plasticity and
development evolves to effectively catch prey in a simulated environment [2.834895018689047]
A-Lifeにとっての大きな課題は、行動が「ライフライク」なエージェントを深く構築することである。
本稿では,動物の脳を構成するプロセスに類似したプロセスを用いて,人工エージェントを駆動するネットワークを構築するためのアーキテクチャとアプローチを提案する。
このアーキテクチャは、センサー入力の変化に対する迅速な応答を可能にするため、小さな自律ロボットやドローンを制御するのに有用であると考えています。
論文 参考訳(メタデータ) (2022-01-28T05:10:56Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Uncertainty-based Modulation for Lifelong Learning [1.3334365645271111]
本稿では、Stephen Grossberg氏のAdaptive Resonance Theory(Adaptive Resonance Theory)提案に基づき、ヒト脳の神経調節機構にインスパイアされたアルゴリズムを提案する。
具体的には、不確実性の概念に基づいて構築され、継続的な学習を可能にするために一連の神経調節機構を使用している。
我々は,環境やエージェントの行動が学習過程を制約し,指導する閉ループ方式でこれらのシステムを開発する上で重要な役割を実証する。
論文 参考訳(メタデータ) (2020-01-27T14:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。