論文の概要: What model does MuZero learn?
- arxiv url: http://arxiv.org/abs/2306.00840v2
- Date: Wed, 18 Oct 2023 16:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:12:42.817488
- Title: What model does MuZero learn?
- Title(参考訳): MuZeroはどのようなモデルを学びますか?
- Authors: Jinke He and Thomas M. Moerland and Frans A. Oliehoek
- Abstract要約: 深層モデルに基づく強化学習アルゴリズム MuZero について検討し,その学習目標をどこまで達成するかを考察する。
ムゼロが学習したモデルは、目に見えない政策を評価するために効果的に一般化できないと結論づける。
- 参考スコア(独自算出の注目度): 14.294141421120452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning has drawn considerable interest in recent
years, given its promise to improve sample efficiency. Moreover, when using
deep-learned models, it is potentially possible to learn compact models from
complex sensor data. However, the effectiveness of these learned models,
particularly their capacity to plan, i.e., to improve the current policy,
remains unclear. In this work, we study MuZero, a well-known deep model-based
reinforcement learning algorithm, and explore how far it achieves its learning
objective of a value-equivalent model and how useful the learned models are for
policy improvement. Amongst various other insights, we conclude that the model
learned by MuZero cannot effectively generalize to evaluate unseen policies,
which limits the extent to which we can additionally improve the current policy
by planning with the model.
- Abstract(参考訳): モデルベースの強化学習は、サンプル効率を改善するという約束から、近年かなりの関心を集めている。
さらに、深層学習モデルを使用する場合、複雑なセンサデータからコンパクトモデルを学ぶことができる。
しかし、これらの学習モデルの有効性、特に計画する能力、すなわち現在の方針を改善する能力は、まだ不明である。
本研究では,よく知られた深層モデルに基づく強化学習アルゴリズムであるmuzeroを調査し,その学習目標である価値等価モデルの実現と,学習モデルが政策改善にどの程度有用かを検討する。
その他の様々な知見の中で,MuZeroが学習したモデルでは,目に見えない政策を効果的に評価することは不可能であり,モデルを用いて計画することで,現在の政策をさらに改善できる範囲を制限することができる。
関連論文リスト
- Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - On-Policy Model Errors in Reinforcement Learning [9.507323314334572]
本研究では,実世界のデータと学習モデルを組み合わせた新しい手法を提案する。
中心となる考え方は、実世界のデータを政治上の予測に利用し、学習したモデルを使用して、異なるアクションに一般化することである。
提案手法は,追加のチューニングパラメータを導入することなく,既存のモデルベースアプローチを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-10-15T10:15:53Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Policy-Aware Model Learning for Policy Gradient Methods [29.129883702165774]
本稿では,モデルベース強化学習(MBRL)におけるモデル学習の問題について考察する。
モデル学習モジュールは、プランナーがモデルを使う方法を取り入れるべきである。
このアプローチをPAML(Policy-Aware Model Learning)と呼ぶ。
論文 参考訳(メタデータ) (2020-02-28T19:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。