論文の概要: Learning as Reinforcement: Applying Principles of Neuroscience for More
General Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2004.09043v1
- Date: Mon, 20 Apr 2020 04:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 17:28:00.429867
- Title: Learning as Reinforcement: Applying Principles of Neuroscience for More
General Reinforcement Learning Agents
- Title(参考訳): 強化としての学習:より一般的な強化学習エージェントに神経科学の原則を適用する
- Authors: Eric Zelikman, William Yin, Kenneth Wang
- Abstract要約: 我々は、生物学的アルゴリズムの計算効率の良い抽象化を組み合わせることによって、実験神経科学の原理に基づいて構築されたアーキテクチャを実装する。
我々のアプローチは、スパイク刺激依存塑性の研究、短期記憶と長期記憶の遷移、および好奇心に対する様々な神経伝達物質の役割に着想を得たものである。
Neurons-in-a-Boxアーキテクチャは、完全に一般化可能な方法で学習することができ、一連の基準やアクションを明示的に最適化することなく、表現を構築し、適用するための効率的な方法を示す。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A significant challenge in developing AI that can generalize well is
designing agents that learn about their world without being told what to learn,
and apply that learning to challenges with sparse rewards. Moreover, most
traditional reinforcement learning approaches explicitly separate learning and
decision making in a way that does not correspond to biological learning. We
implement an architecture founded in principles of experimental neuroscience,
by combining computationally efficient abstractions of biological algorithms.
Our approach is inspired by research on spike-timing dependent plasticity, the
transition between short and long term memory, and the role of various
neurotransmitters in rewarding curiosity. The Neurons-in-a-Box architecture can
learn in a wholly generalizable manner, and demonstrates an efficient way to
build and apply representations without explicitly optimizing over a set of
criteria or actions. We find it performs well in many environments including
OpenAI Gym's Mountain Car, which has no reward besides touching a hard-to-reach
flag on a hill, Inverted Pendulum, where it learns simple strategies to improve
the time it holds a pendulum up, a video stream, where it spontaneously learns
to distinguish an open and closed hand, as well as other environments like
Google Chrome's Dinosaur Game.
- Abstract(参考訳): うまく一般化できるaiを開発する上で、重要な課題は、何を学ぶべきかを語られずに自分の世界について学ぶエージェントを設計し、その学習を少ない報酬で課題に適用することである。
さらに、従来の強化学習のほとんどは、生物学的学習に対応しない方法で、学習と意思決定を明確に分離するアプローチである。
生物学的アルゴリズムの計算効率の高い抽象化を組み合わせることで,実験神経科学の原理を基礎としたアーキテクチャを実現する。
我々のアプローチは、スパイク刺激依存塑性の研究、短期記憶と長期記憶の遷移、および好奇心に対する様々な神経伝達物質の役割から着想を得ている。
Neurons-in-a-Boxアーキテクチャは、完全に一般化可能な方法で学習することができ、一連の基準やアクションを明示的に最適化することなく、表現を構築し、適用するための効率的な方法を示す。
openai gymのマウンテンカーは、丘の上の難解な旗に触れるだけでなく、逆振り子(inverted pendulum)で、振り子の保持時間を改善するためのシンプルな戦略、ビデオストリーム、オープンとクローズドハンドの区別を自発的に学習するビデオストリーム、google chromeの恐竜ゲームのような他の環境など、多くの環境でうまく機能する。
関連論文リスト
- A Neuro-mimetic Realization of the Common Model of Cognition via Hebbian
Learning and Free Energy Minimization [55.11642177631929]
大規模なニューラル生成モデルは、意味的に豊富なテキストのパスを合成したり、複雑な画像を生成することができる。
我々はコモン・モデル・オブ・コグニティブ・ニューラル・ジェネレーティブ・システムについて論じる。
論文 参考訳(メタデータ) (2023-10-14T23:28:48Z) - Incremental procedural and sensorimotor learning in cognitive humanoid
robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。
各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。
結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文 参考訳(メタデータ) (2023-04-30T22:51:31Z) - Generative Adversarial Neuroevolution for Control Behaviour Imitation [3.04585143845864]
本稿では,一般的なシミュレーション環境における行動模倣にディープ・ニューロエボリューションが有効かどうかを考察する。
我々は、単純な共進化的逆数生成フレームワークを導入し、標準の深い再帰ネットワークを進化させることにより、その能力を評価する。
全てのタスクにおいて、事前訓練されたエージェントが獲得したものよりも高いスコアを達成できる最後のエリートアクターが見つかる。
論文 参考訳(メタデータ) (2023-04-03T16:33:22Z) - MARTI-4: new model of human brain, considering neocortex and basal
ganglia -- learns to play Atari game by reinforcement learning on a single
CPU [0.0]
我々は新皮質と基底神経節を考慮した新しいヒト脳モデルMARTIを提案する。
内的報酬による強化学習プロセスを大幅に改善する,新たなサプライズ感覚機構を導入する。
論文 参考訳(メタデータ) (2022-08-18T20:23:49Z) - Open-Ended Reinforcement Learning with Neural Reward Functions [2.4366811507669115]
高次元ロボット環境では、ハーフチェエタのフロントフリップやヒューマノイドの片足ランニングなど、幅広い興味深いスキルを学びます。
ピクセルベースのMontezumaのRevenge環境では、我々の手法は最小限の変更でも機能し、アイテムとのインタラクションや多様な場所の訪問に関わる複雑なスキルを学ぶ。
論文 参考訳(メタデータ) (2022-02-16T15:55:22Z) - Improving the sample-efficiency of neural architecture search with
reinforcement learning [0.0]
この作業では、Automated Machine Learning(AutoML)の領域にコントリビュートしたいと思っています。
我々の焦点は、最も有望な研究方向の一つ、強化学習である。
児童ネットワークの検証精度は、コントローラを訓練するための報奨信号として機能する。
我々は、これをより現代的で複雑なアルゴリズムであるPPOに修正することを提案する。
論文 参考訳(メタデータ) (2021-10-13T14:30:09Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Artificial Neural Variability for Deep Learning: On Overfitting, Noise
Memorization, and Catastrophic Forgetting [135.0863818867184]
人工ニューラルネットワーク(ANV)は、ニューラルネットワークが自然のニューラルネットワークからいくつかの利点を学ぶのに役立つ。
ANVは、トレーニングデータと学習モデルの間の相互情報の暗黙の正則化として機能する。
過度にフィットし、ノイズの記憶をラベル付けし、無視できるコストで破滅的な忘れを効果的に軽減することができる。
論文 参考訳(メタデータ) (2020-11-12T06:06:33Z) - Hierarchical Affordance Discovery using Intrinsic Motivation [69.9674326582747]
本研究では,移動ロボットの価格学習を支援するために,本質的なモチベーションを用いたアルゴリズムを提案する。
このアルゴリズムは、事前にプログラムされたアクションなしで、相互に関連のある価格を自律的に発見し、学習し、適応することができる。
一度学習すると、これらの余裕はアルゴリズムによって様々な困難を伴うタスクを実行するために一連のアクションを計画するために使われる。
論文 参考訳(メタデータ) (2020-09-23T07:18:21Z) - Reinforcement Learning and its Connections with Neuroscience and
Psychology [0.0]
我々は,脳内の学習と意思決定をモデル化するための候補として,強化学習が有望な候補であることを示す神経科学と心理学の両方の知見をレビューした。
次に、このRLと神経科学と心理学の関係と、AIと脳科学の両方の研究の進展における役割について論じる。
論文 参考訳(メタデータ) (2020-06-25T04:29:15Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。