論文の概要: On the Reliability and Generalizability of Brain-inspired Reinforcement
Learning Algorithms
- arxiv url: http://arxiv.org/abs/2007.04578v1
- Date: Thu, 9 Jul 2020 06:32:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 05:02:21.537928
- Title: On the Reliability and Generalizability of Brain-inspired Reinforcement
Learning Algorithms
- Title(参考訳): 脳インスパイア強化学習アルゴリズムの信頼性と一般化性について
- Authors: Dongjae Kim and Jee Hang Lee, Jae Hoon Shin, Minsu Abel Yang, Sang Wan
Lee
- Abstract要約: モデルベースとモデルフリー制御を組み合わせた計算モデルは,前頭前野のRLと呼ばれ,人間が学習した高レベル政策に関する情報を確実にエンコードする。
これは、脳が一般的な問題を解決する方法を模倣する計算モデルが実用的な解決策をもたらす可能性を正式にテストする最初の試みである。
- 参考スコア(独自算出の注目度): 10.09712608508383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although deep RL models have shown a great potential for solving various
types of tasks with minimal supervision, several key challenges remain in terms
of learning from limited experience, adapting to environmental changes, and
generalizing learning from a single task. Recent evidence in decision
neuroscience has shown that the human brain has an innate capacity to resolve
these issues, leading to optimism regarding the development of
neuroscience-inspired solutions toward sample-efficient, and generalizable RL
algorithms. We show that the computational model combining model-based and
model-free control, which we term the prefrontal RL, reliably encodes the
information of high-level policy that humans learned, and this model can
generalize the learned policy to a wide range of tasks. First, we trained the
prefrontal RL, and deep RL algorithms on 82 subjects' data, collected while
human participants were performing two-stage Markov decision tasks, in which we
manipulated the goal, state-transition uncertainty and state-space complexity.
In the reliability test, which includes the latent behavior profile and the
parameter recoverability test, we showed that the prefrontal RL reliably
learned the latent policies of the humans, while all the other models failed.
Second, to test the ability to generalize what these models learned from the
original task, we situated them in the context of environmental volatility.
Specifically, we ran large-scale simulations with 10 Markov decision tasks, in
which latent context variables change over time. Our information-theoretic
analysis showed that the prefrontal RL showed the highest level of adaptability
and episodic encoding efficacy. This is the first attempt to formally test the
possibility that computational models mimicking the way the brain solves
general problems can lead to practical solutions to key challenges in machine
learning.
- Abstract(参考訳): 深いrlモデルは、最小限の監督で様々な種類のタスクを解決できる大きな可能性を示しているが、限られた経験から学ぶこと、環境の変化に適応すること、ひとつのタスクから学習を一般化することといったいくつかの重要な課題は残っている。
意思決定神経科学の最近の証拠は、人間の脳がこれらの問題を解決する能力を持っていることを示しており、標本効率と一般化可能なRLアルゴリズムに対する神経科学にインスパイアされた解決策の開発に関する楽観主義を導いている。
先行的rlと呼ばれるモデルベース制御とモデルフリー制御を組み合わせた計算モデルは、人間が学習したハイレベルなポリシーの情報を確実にエンコードし、学習したポリシーを幅広いタスクに一般化できることを示す。
まず,82件の被験者のデータに基づいて前頭前野のRLと深部RLアルゴリズムを訓練し,人間の被験者が2段階のマルコフ決定タスクを行い,その目標,状態遷移の不確実性,状態空間の複雑さを操作した。
潜在行動プロファイルとパラメータ回復性テストを含む信頼性テストでは、前頭前RLが人間の潜伏政策を確実に学習し、他の全てのモデルが失敗することを示した。
第二に、これらのモデルが元のタスクから学んだことを一般化する能力をテストするために、環境変動の文脈でそれらを配置する。
具体的には,10のマルコフ決定タスクを用いた大規模シミュレーションを行い,時間とともに潜在コンテキスト変数が変化する。
情報理論解析の結果,前頭前野RLは適応性とエピソードエンコーディングの有効性が最も高かった。
これは、脳が一般的な問題を解決する方法を模倣する計算モデルが機械学習の重要な課題に対する実践的な解決につながる可能性を正式にテストする最初の試みである。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Advancing Brain Imaging Analysis Step-by-step via Progressive Self-paced Learning [0.5840945370755134]
適応型・進行型ペーシング・蒸留機構を応用したPSPD(Progressive Self-Paced Distillation)フレームワークを提案する。
我々は、アルツハイマー病神経画像イニシアチブ(ADNI)データセットを用いて、様々な畳み込みニューラルネットワークにおけるPSPDの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2024-07-23T02:26:04Z) - Entropy Regularized Reinforcement Learning with Cascading Networks [9.973226671536041]
Deep RLは関数近似器としてニューラルネットワークを使用する。
RLの大きな難しさの1つは、i.i.d.データの欠如である。
本研究では,ニューラルネットワークを用いた教師なし学習コミュニティの共通実践に挑戦する。
論文 参考訳(メタデータ) (2022-10-16T10:28:59Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - What deep reinforcement learning tells us about human motor learning and
vice-versa [24.442174952832108]
本稿では,近年の深部RL法が神経科学,エラーベース学習において支配的な運動学習の枠組みとどのように一致するかを示す。
我々は、モデルに基づく決定論的ポリシー勾配(MB-DPG)という新しいディープRLアルゴリズムを導入する。
MB-DPGは、観察された行動の結果に明示的に依存することで、エラーベースの学習からインスピレーションを得ている。
論文 参考訳(メタデータ) (2022-08-23T11:56:49Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using
Reinforcement Learning Agents [0.0]
本稿では,課題学習の目的を課題(あるいは課題の集合)の目的にシフトさせるメタラーニング手法を提案する。
我々のモデルであるREIN-2は、RLフレームワーク内で構成されたメタ学習スキームであり、その目的は、他のRLエージェントの作り方を学ぶメタRLエージェントを開発することである。
従来の最先端のDeep RLアルゴリズムと比較して、実験結果は、人気のあるOpenAI Gym環境において、我々のモデルの顕著な性能を示している。
論文 参考訳(メタデータ) (2021-10-11T10:13:49Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。