論文の概要: Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning
- arxiv url: http://arxiv.org/abs/2107.12544v1
- Date: Tue, 27 Jul 2021 01:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:45:42.676827
- Title: Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning
- Title(参考訳): 理論に基づくモデリング・探索・計画による人間レベル強化学習
- Authors: Pedro A. Tsividis, Joao Loula, Jake Burga, Nathan Foss, Andres
Campero, Thomas Pouncy, Samuel J. Gershman, Joshua B. Tenenbaum
- Abstract要約: 理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
- 参考スコア(独自算出の注目度): 27.593497502386143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) studies how an agent comes to achieve reward in
an environment through interactions over time. Recent advances in machine RL
have surpassed human expertise at the world's oldest board games and many
classic video games, but they require vast quantities of experience to learn
successfully -- none of today's algorithms account for the human ability to
learn so many different tasks, so quickly. Here we propose a new approach to
this challenge based on a particularly strong form of model-based RL which we
call Theory-Based Reinforcement Learning, because it uses human-like intuitive
theories -- rich, abstract, causal models of physical objects, intentional
agents, and their interactions -- to explore and model an environment, and plan
effectively to achieve task goals. We instantiate the approach in a video game
playing agent called EMPA (the Exploring, Modeling, and Planning Agent), which
performs Bayesian inference to learn probabilistic generative models expressed
as programs for a game-engine simulator, and runs internal simulations over
these models to support efficient object-based, relational exploration and
heuristic planning. EMPA closely matches human learning efficiency on a suite
of 90 challenging Atari-style video games, learning new games in just minutes
of game play and generalizing robustly to new game situations and new levels.
The model also captures fine-grained structure in people's exploration
trajectories and learning dynamics. Its design and behavior suggest a way
forward for building more general human-like AI systems.
- Abstract(参考訳): 強化学習(Reinforcement Learning、RL)は、エージェントが時間とともに相互作用を通じて環境の中で報酬を達成する方法を研究する。
マシンRLの最近の進歩は、世界最古のボードゲームや多くのクラシックビデオゲームで人間の専門知識を超えたが、学習するためには膨大な量の経験を必要とする。
そこで本研究では,人間のような直感的理論 – 物理オブジェクトのリッチで抽象的で因果的モデル,意図的エージェント,およびそれらの相互作用 – を用いて,環境を探索し,モデル化し,タスク目標を達成するために効果的に計画する,理論に基づく強化学習という,特に強力なモデルベースRLに基づく,この問題に対する新たなアプローチを提案する。
empa(exploring, modeling, and planning agent)と呼ばれる,ゲームエンジンシミュレータのプログラムとして表現される確率的生成モデルを学ぶベイズ推論を実行し,これらのモデル上で内部シミュレーションを実行し,効率的なオブジェクトベース,リレーショナル探索,ヒューリスティック計画をサポートする。
EMPAは、90の挑戦的なAtariスタイルのビデオゲームで人間の学習効率と密に一致し、ゲームの数分で新しいゲームを学習し、新しいゲーム状況と新しいレベルにしっかりと一般化する。
このモデルは、人々の探索軌道と学習ダイナミクスのきめ細かい構造も捉えている。
その設計と行動は、より一般的な人間的なAIシステムを構築するための道のりを示唆している。
関連論文リスト
- RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Co-Learning Empirical Games and World Models [23.800790782022222]
実証ゲームは世界モデルをゲーム力学のより広範な考察へと導く。
世界モデルは経験的なゲームをガイドし、計画を通じて新しい戦略を効率的に発見する。
新しいアルゴリズムであるDyna-PSROは、経験ゲームと世界モデルの共同学習である。
論文 参考訳(メタデータ) (2023-05-23T16:37:21Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Curious Exploration via Structured World Models Yields Zero-Shot Object
Manipulation [19.840186443344]
そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。
提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
論文 参考訳(メタデータ) (2022-06-22T22:08:50Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Architecting and Visualizing Deep Reinforcement Learning Models [77.34726150561087]
深層強化学習(Deep Reinforcement Learning, DRL)は、コンピュータが相互にコミュニケーションする方法を教えることを目的とした理論である。
本稿では,新しいAtari Pongゲーム環境,ポリシーグラデーションに基づくDRLモデル,リアルタイムネットワーク可視化,そしてDRL推論の直観と認識を構築するためのインタラクティブディスプレイを提案する。
論文 参考訳(メタデータ) (2021-12-02T17:48:26Z) - Independent Learning in Stochastic Games [16.505046191280634]
動的環境におけるマルチエージェント学習のためのゲームモデルを提案する。
ゲームのためのシンプルで独立した学習力学の開発に焦点をあてる。
我々は最近提案したゼロサムゲームにおける収束を保証する単純かつ独立な学習力学について述べる。
論文 参考訳(メタデータ) (2021-11-23T09:27:20Z) - Mastering Atari with Discrete World Models [61.7688353335468]
本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
論文 参考訳(メタデータ) (2020-10-05T17:52:14Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。