論文の概要: Brain-Like Replay Naturally Emerges in Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2402.01467v2
- Date: Sun, 06 Oct 2024 21:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:42:11.637698
- Title: Brain-Like Replay Naturally Emerges in Reinforcement Learning Agents
- Title(参考訳): 強化学習エージェントにおける脳ライクなリプレイ
- Authors: Jiyi Wang, Likai Tang, Huimiao Chen, Marcelo G Mattar, Sen Song,
- Abstract要約: リプレイを生成するモジュール型強化学習モデルを開発した。
この方法で生成されたリプレイがタスクの完了に役立つことを証明します。
我々の設計は複雑な仮定を回避し、タスク最適化パラダイム内で自然にリプレイを可能にする。
- 参考スコア(独自算出の注目度): 3.9276584971242303
- License:
- Abstract: Replay is a powerful strategy to promote learning in artificial intelligence and the brain. However, the conditions to generate it and its functional advantages have not been fully recognized. In this study, we develop a modular reinforcement learning model that could generate replay. We prove that replay generated in this way helps complete the task. We also analyze the information contained in the representation and provide a mechanism for how replay makes a difference. Our design avoids complex assumptions and enables replay to emerge naturally within a task-optimized paradigm. Our model also reproduces key phenomena observed in biological agents. This research explores the structural biases in modular ANN to generate replay and its potential utility in developing efficient RL.
- Abstract(参考訳): リプレイは、人工知能と脳における学習を促進する強力な戦略である。
しかし, 生成条件とその機能的優位性は十分に認識されていない。
本研究では,リプレイを生成可能なモジュール型強化学習モデルを開発した。
この方法で生成されたリプレイがタスクの完了に役立つことを証明します。
また、表現に含まれる情報を分析し、リプレイがどう違うかを示すメカニズムを提供する。
我々の設計は複雑な仮定を回避し、タスク最適化パラダイム内で自然にリプレイを可能にする。
また,本モデルでは生体内における重要な現象を再現する。
本研究は, モジュール型ANNにおける構造バイアスについて検討し, 効率的なRLの開発におけるリプレイとその潜在的有用性について検討する。
関連論文リスト
- Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Adiabatic replay for continual learning [138.7878582237908]
生成的リプレイは、すでに知られていることを再学習するだけで、より多くの時間を費やします。
我々は、アディバティック・リプレイ(AR)と呼ぶリプレイベースのCL戦略を提案する。
VAEを用いた最先端の深層再生よりもARの方が優れていることを実験的に検証した。
論文 参考訳(メタデータ) (2023-03-23T10:18:06Z) - Model-Free Generative Replay for Lifelong Reinforcement Learning:
Application to Starcraft-2 [5.239932780277599]
生成的リプレイ(GR)は、生物学的にインスパイアされたリプレイ機構であり、自己ラベルの例で学習経験を増強する。
本稿では,2つのデシラタを満たすLRL用GRのバージョンを提案する。 (a) 深層RLを用いて学習したポリシーの潜在表現の内観的密度モデリング, (b) モデルなしのエンドツーエンド学習である。
論文 参考訳(メタデータ) (2022-08-09T22:00:28Z) - Architecting and Visualizing Deep Reinforcement Learning Models [77.34726150561087]
深層強化学習(Deep Reinforcement Learning, DRL)は、コンピュータが相互にコミュニケーションする方法を教えることを目的とした理論である。
本稿では,新しいAtari Pongゲーム環境,ポリシーグラデーションに基づくDRLモデル,リアルタイムネットワーク可視化,そしてDRL推論の直観と認識を構築するためのインタラクティブディスプレイを提案する。
論文 参考訳(メタデータ) (2021-12-02T17:48:26Z) - Learning offline: memory replay in biological and artificial
reinforcement learning [1.0136215038345011]
神経科学・AI分野におけるリプレイの機能的役割を概観する。
リプレイは生物学的ニューラルネットワークにおけるメモリ統合に重要である。
また、ディープニューラルネットワークにおける学習の安定化の鍵でもある。
論文 参考訳(メタデータ) (2021-09-21T08:57:19Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Replay in Deep Learning: Current Approaches and Missing Biological
Elements [33.20770284464084]
リプレイは1つ以上の神経パターンの再活性化である。
記憶形成、検索、統合において重要な役割を果たしていると考えられている。
哺乳類の脳におけるリプレイと人工神経ネットワークにおけるリプレイの総合比較を行った。
論文 参考訳(メタデータ) (2021-04-01T15:19:08Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Dynamic Experience Replay [6.062589413216726]
我々は, Ape-X DDPG を基盤として, ロボットによるタイトな組立作業へのアプローチを実証する。
特に、ペグ・イン・ホール(peg-in-hole)とラップ・ジョイント( lap-joint)という2つの異なるタスクで実験を行う。
私たちのアブレーション研究は、ダイナミックエクスペリエンス・リプレイが、これらの困難な環境でのトレーニング時間を大幅に短縮する重要な要素であることを示しています。
論文 参考訳(メタデータ) (2020-03-04T23:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。