論文の概要: What model does MuZero learn?
- arxiv url: http://arxiv.org/abs/2306.00840v1
- Date: Thu, 1 Jun 2023 16:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 14:47:12.112754
- Title: What model does MuZero learn?
- Title(参考訳): MuZeroはどのようなモデルを学びますか?
- Authors: Jinke He and Thomas M. Moerland and Frans A. Oliehoek
- Abstract要約: 深層モデルに基づく強化学習アルゴリズム MuZero について検討し,その学習目標をどこまで達成するかを考察する。
ムゼロが学習したモデルは、目に見えない政策を評価するために効果的に一般化できないと結論づける。
- 参考スコア(独自算出の注目度): 10.74224279054465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning has drawn considerable interest in recent
years, given its promise to improve sample efficiency. Moreover, when using
deep-learned models, it is potentially possible to learn compact models from
complex sensor data. However, the effectiveness of these learned models,
particularly their capacity to plan, i.e., to improve the current policy,
remains unclear. In this work, we study MuZero, a well-known deep model-based
reinforcement learning algorithm, and explore how far it achieves its learning
objective of a value-equivalent model and how useful the learned models are for
policy improvement. Amongst various other insights, we conclude that the model
learned by MuZero cannot effectively generalize to evaluate unseen policies,
which limits the extent to which we can additionally improve the current policy
by planning with the model.
- Abstract(参考訳): モデルベースの強化学習は、サンプル効率を改善するという約束から、近年かなりの関心を集めている。
さらに、深層学習モデルを使用する場合、複雑なセンサデータからコンパクトモデルを学ぶことができる。
しかし、これらの学習モデルの有効性、特に計画する能力、すなわち現在の方針を改善する能力は、まだ不明である。
本研究では,よく知られた深層モデルに基づく強化学習アルゴリズムであるmuzeroを調査し,その学習目標である価値等価モデルの実現と,学習モデルが政策改善にどの程度有用かを検討する。
その他の様々な知見の中で,MuZeroが学習したモデルでは,目に見えない政策を効果的に評価することは不可能であり,モデルを用いて計画することで,現在の政策をさらに改善できる範囲を制限することができる。
関連論文リスト
- Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - A Unified View on Solving Objective Mismatch in Model-Based Reinforcement Learning [10.154341066746975]
モデルベース強化学習(MBRL)は、エージェントをよりサンプリング効率、適応性、説明しやすいものにすることを目的としている。
モデルをどのように学習するかは、まだ未解決の問題である。
論文 参考訳(メタデータ) (2023-10-10T01:58:38Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - TOM: Learning Policy-Aware Models for Model-Based Reinforcement Learning
via Transition Occupancy Matching [28.743727234246126]
モデル学習のための新しい「遷移占有マッチング」 (TOM) 手法を提案する。
TOMは、現在のポリシーが実際の環境と同じモデル内で遷移の分布を経験する程度に優れている。
TOMは、政策関連体験にモデル学習を集中させ、政策をより高いタスク報酬に迅速に進めることに成功していることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:06:09Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Model-Advantage Optimization for Model-Based Reinforcement Learning [41.13567626667456]
モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。
モデル学習を最大限に活用するためのモデル学習パラダイムであるバリューアウェアモデル学習は,学習ポリシーの価値関数を通じてモデル学習に通知することを提案する。
本稿では、2つのモデルにまたがるポリシーの絶対的な性能差の上限である新しい値認識目的を提案する。
論文 参考訳(メタデータ) (2021-06-26T20:01:28Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。