論文の概要: What deep reinforcement learning tells us about human motor learning and
vice-versa
- arxiv url: http://arxiv.org/abs/2208.10892v1
- Date: Tue, 23 Aug 2022 11:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 12:24:48.736484
- Title: What deep reinforcement learning tells us about human motor learning and
vice-versa
- Title(参考訳): 深層強化学習が人間の運動学習と逆行について教えてくれること
- Authors: Michele Garibbo, Casimir Ludwig, Nathan Lepora and Laurence Aitchison
- Abstract要約: 本稿では,近年の深部RL法が神経科学,エラーベース学習において支配的な運動学習の枠組みとどのように一致するかを示す。
我々は、モデルに基づく決定論的ポリシー勾配(MB-DPG)という新しいディープRLアルゴリズムを導入する。
MB-DPGは、観察された行動の結果に明示的に依存することで、エラーベースの学習からインスピレーションを得ている。
- 参考スコア(独自算出の注目度): 24.442174952832108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning and specifically reinforcement learning (RL) has been
extremely successful in helping us to understand neural decision making
processes. However, RL's role in understanding other neural processes
especially motor learning is much less well explored. To explore this
connection, we investigated how recent deep RL methods correspond to the
dominant motor learning framework in neuroscience, error-based learning.
Error-based learning can be probed using a mirror reversal adaptation paradigm,
where it produces distinctive qualitative predictions that are observed in
humans. We therefore tested three major families of modern deep RL algorithm on
a mirror reversal perturbation. Surprisingly, all of the algorithms failed to
mimic human behaviour and indeed displayed qualitatively different behaviour
from that predicted by error-based learning. To fill this gap, we introduce a
novel deep RL algorithm: model-based deterministic policy gradients (MB-DPG).
MB-DPG draws inspiration from error-based learning by explicitly relying on the
observed outcome of actions. We show MB-DPG captures (human) error-based
learning under mirror-reversal and rotational perturbation. Next, we
demonstrate error-based learning in the form of MB-DPG learns faster than
canonical model-free algorithms on complex arm-based reaching tasks, while
being more robust to (forward) model misspecification than model-based RL.
These findings highlight the gap between current deep RL methods and human
motor adaptation and offer a route to closing this gap, facilitating future
beneficial interaction between between the two fields.
- Abstract(参考訳): 機械学習、特に強化学習(rl)は、神経意思決定プロセスを理解するのに非常に成功しています。
しかし、他の神経プロセス、特に運動学習を理解するrlの役割は、あまりよく研究されていない。
この関係を探求するため,近年の深部RL法が神経科学,エラーベース学習における支配的な運動学習フレームワークにどのように対応しているかを検討した。
誤りに基づく学習は、ミラーリバーサル適応パラダイムを用いて、人間で観察される独特の質的予測を生成する。
そこで, 鏡面逆摂動を用いて, 現代の深層rlアルゴリズムの3つの主要ファミリーをテストした。
驚くべきことに、すべてのアルゴリズムは人間の行動の模倣に失敗し、実際にエラーベースの学習によって予測される行動とは質的に異なる行動を示した。
このギャップを埋めるために,新しい深層rlアルゴリズムであるモデルベース決定論的ポリシー勾配(mb-dpg)を提案する。
MB-DPGは、観察された行動の結果に明示的に依存することで、エラーベースの学習からインスピレーションを得ている。
MB-DPGは,ミラー反転・回転摂動下での誤りに基づく学習を行う。
次に,MB-DPGの形式での誤りベースの学習を,複雑なアームベースリーチタスクにおける標準モデルフリーアルゴリズムよりも高速に学習すると同時に,モデルベースRLよりも(前方)モデルの誤特定に頑健であることを示す。
これらの知見は、現在の深部RL法とヒト運動適応のギャップを強調し、このギャップを閉じる経路を提供し、この2つのフィールド間の将来の有益な相互作用を促進する。
関連論文リスト
- Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
勾配に基づく手法を用いて訓練された深層強化学習(RL)モデルでは、勾配の選択とその学習速度は優れた性能を達成するために不可欠である。
本稿では,学習中のエージェントのパフォーマンスに基づいて学習率を選択するメタ学習手法である深層強化学習(LRRL)の動的学習率を提案する。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Entropy Regularized Reinforcement Learning with Cascading Networks [9.973226671536041]
Deep RLは関数近似器としてニューラルネットワークを使用する。
RLの大きな難しさの1つは、i.i.d.データの欠如である。
本研究では,ニューラルネットワークを用いた教師なし学習コミュニティの共通実践に挑戦する。
論文 参考訳(メタデータ) (2022-10-16T10:28:59Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - On the Reliability and Generalizability of Brain-inspired Reinforcement
Learning Algorithms [10.09712608508383]
モデルベースとモデルフリー制御を組み合わせた計算モデルは,前頭前野のRLと呼ばれ,人間が学習した高レベル政策に関する情報を確実にエンコードする。
これは、脳が一般的な問題を解決する方法を模倣する計算モデルが実用的な解決策をもたらす可能性を正式にテストする最初の試みである。
論文 参考訳(メタデータ) (2020-07-09T06:32:42Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。