論文の概要: A Survey on Model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.09328v1
- Date: Sun, 19 Jun 2022 05:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 23:16:12.798701
- Title: A Survey on Model-based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習に関する調査
- Authors: Fan-Ming Luo, Tian Xu, Hang Lai, Xiong-Hui Chen, Weinan Zhang, Yang Yu
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、環境と対話する試行錯誤プロセスを通じて、シーケンシャルな意思決定問題を解決する。
モデルベース強化学習(MBRL)は有望な方向であり、実際のコストなしで試行錯誤を行う環境モデルを構築する。
- 参考スコア(独自算出の注目度): 21.85904195671014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) solves sequential decision-making problems via a
trial-and-error process interacting with the environment. While RL achieves
outstanding success in playing complex video games that allow huge
trial-and-error, making errors is always undesired in the real world. To
improve the sample efficiency and thus reduce the errors, model-based
reinforcement learning (MBRL) is believed to be a promising direction, which
builds environment models in which the trial-and-errors can take place without
real costs. In this survey, we take a review of MBRL with a focus on the recent
progress in deep RL. For non-tabular environments, there is always a
generalization error between the learned environment model and the real
environment. As such, it is of great importance to analyze the discrepancy
between policy training in the environment model and that in the real
environment, which in turn guides the algorithm design for better model
learning, model usage, and policy training. Besides, we also discuss the recent
advances of model-based techniques in other forms of RL, including offline RL,
goal-conditioned RL, multi-agent RL, and meta-RL. Moreover, we discuss the
applicability and advantages of MBRL in real-world tasks. Finally, we end this
survey by discussing the promising prospects for the future development of
MBRL. We think that MBRL has great potential and advantages in real-world
applications that were overlooked, and we hope this survey could attract more
research on MBRL.
- Abstract(参考訳): 強化学習(RL)は、環境と相互作用する試行錯誤プロセスを通じて、シーケンシャルな意思決定問題を解決する。
RLは、大規模な試行錯誤を可能にする複雑なビデオゲームをプレイする上で、優れた成功を収めています。
サンプル効率の向上とエラー低減のため、モデルベース強化学習(mbrl)は有望な方向性であると考えられており、実コストで試行錯誤を行うことができる環境モデルを構築している。
本調査では,近年の深部RLの進展に焦点をあてて,MBRLを概観する。
非タブラキ環境の場合、学習環境モデルと実環境との間には常に一般化誤差が存在する。
そのため、環境モデルにおけるポリシートレーニングと実際の環境におけるポリシートレーニングの相違を分析することが重要であり、それによって、より良いモデル学習、モデル利用、ポリシートレーニングのためのアルゴリズム設計がガイドされる。
さらに、オフラインRL、ゴール条件付きRL、マルチエージェントRL、メタRLなど、RLの他の形態におけるモデルベース手法の最近の進歩についても論じる。
さらに、実世界のタスクにおけるMBRLの適用性と利点についても論じる。
最後に,MBRLの将来開発の可能性について論じることで,この調査を終わらせる。
私たちは、MBRLは見落とされた現実世界のアプリケーションにおいて大きな可能性と利点を持っていると考えています。
関連論文リスト
- A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - A Unified View on Solving Objective Mismatch in Model-Based Reinforcement Learning [10.154341066746975]
モデルベース強化学習(MBRL)は、エージェントをよりサンプリング効率、適応性、説明しやすいものにすることを目的としている。
モデルをどのように学習するかは、まだ未解決の問題である。
論文 参考訳(メタデータ) (2023-10-10T01:58:38Z) - A Survey of Meta-Reinforcement Learning [83.95180398234238]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - A Validation Tool for Designing Reinforcement Learning Environments [0.0]
本研究では, マルコフを用いた特徴解析手法を提案し, MDPが適切に定式化されているか検証する。
我々は,RLの適用に適したMDPには,行動に敏感かつ報奨の予測が可能な,一連の状態特徴が含まれるべきだと考えている。
論文 参考訳(メタデータ) (2021-12-10T13:28:08Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。