論文の概要: A Game Theoretic Framework for Model Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.07804v2
- Date: Thu, 11 Mar 2021 05:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 20:42:11.445809
- Title: A Game Theoretic Framework for Model Based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習のためのゲーム理論フレームワーク
- Authors: Aravind Rajeswaran, Igor Mordatch, Vikash Kumar
- Abstract要約: モデルベース強化学習(MBRL)は、最近、サンプル効率と非政治データを組み込む能力により、大きな関心を集めている。
我々は,MBRLをゲームとして活用する新たなフレームワークを開発する。(1)学習モデルの下で報酬を最大化しようとするポリシープレイヤー,(2)ポリシープレイヤーが収集した実世界のデータに適合しようとするモデルプレイヤー。
当社のフレームワークは一貫性があり,従来から重要であった勾配の明確な基盤を提供します。
- 参考スコア(独自算出の注目度): 39.45066100705418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) has recently gained immense
interest due to its potential for sample efficiency and ability to incorporate
off-policy data. However, designing stable and efficient MBRL algorithms using
rich function approximators have remained challenging. To help expose the
practical challenges in MBRL and simplify algorithm design from the lens of
abstraction, we develop a new framework that casts MBRL as a game between: (1)
a policy player, which attempts to maximize rewards under the learned model;
(2) a model player, which attempts to fit the real-world data collected by the
policy player. For algorithm development, we construct a Stackelberg game
between the two players, and show that it can be solved with approximate
bi-level optimization. This gives rise to two natural families of algorithms
for MBRL based on which player is chosen as the leader in the Stackelberg game.
Together, they encapsulate, unify, and generalize many previous MBRL
algorithms. Furthermore, our framework is consistent with and provides a clear
basis for heuristics known to be important in practice from prior works.
Finally, through experiments we validate that our proposed algorithms are
highly sample efficient, match the asymptotic performance of model-free policy
gradient, and scale gracefully to high-dimensional tasks like dexterous hand
manipulation. Additional details and code can be obtained from the project page
at https://sites.google.com/view/mbrl-game
- Abstract(参考訳): モデルベース強化学習(MBRL)は、最近、サンプル効率と非政治データを組み込む能力により、大きな関心を集めている。
しかし、リッチ関数近似器を用いた安定かつ効率的なMBRLアルゴリズムの設計は依然として困難である。
MBRLの実践的な課題を明らかにし、抽象的なレンズからアルゴリズム設計を単純化するために、(1)学習モデルの下で報酬を最大化しようとするポリシープレイヤー、(2)ポリシープレイヤーが収集した実世界のデータに適合しようとするモデルプレイヤーの間に、MBRLをゲームとしてキャストする新しいフレームワークを開発する。
アルゴリズム開発のために,2プレイヤー間のstackelbergゲームを構築し,近似2レベル最適化によって解くことができることを示す。
これにより、2つのMBRLアルゴリズムの自然なファミリーが生まれ、どのプレイヤーがスタックルバーグゲームのリーダーに選ばれたかが決定される。
それらとともに、多くのMBRLアルゴリズムをカプセル化し、統一し、一般化する。
さらに,本フレームワークは,従来の作業から重要なヒューリスティックスに対する明確な基盤を提供する。
最後に,実験により,提案アルゴリズムが高サンプリング効率で,モデルフリー政策勾配の漸近的性能と一致し,デキスタラスハンド操作のような高次元タスクに優しくスケール可能であることを確認した。
詳細とコードはプロジェクトのページ https://sites.google.com/view/mbrl-game で確認できる。
関連論文リスト
- Bayes Adaptive Monte Carlo Tree Search for Offline Model-based Reinforcement Learning [5.663006149337036]
オフラインモデルに基づく強化学習(MBRL)は、データ駆動による意思決定と制御のための強力なアプローチである。
オフラインデータセットで同一の動作をする様々なMDPが存在する可能性があるため、真のMDPに関する不確実性に対処することは困難である。
本研究では,BAMDPを連続状態および動作空間で解くことのできるベイズ適応モンテカルロ計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:36:43Z) - Direct Preference-based Policy Optimization without Reward Modeling [25.230992130108767]
嗜好に基づく強化学習(PbRL)は、RLエージェントが嗜好から学習できるアプローチである。
報酬モデリングを必要とせずに好みから直接学習するPbRLアルゴリズムを提案する。
提案アルゴリズムは,地味な報奨情報を用いて学習するオフラインRL手法を超越することを示す。
論文 参考訳(メタデータ) (2023-01-30T12:51:13Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided
Exploration [15.173628100049129]
本研究では,カーネル化レギュレータ(KNR)と線形マルコフ決定過程(MDP)のモデルベースアルゴリズムについて検討する。
両方のモデルに対して、我々のアルゴリズムはサンプルの複雑さを保証し、プランニングオラクルへのアクセスのみを使用する。
また,提案手法は報酬のない探索を効率的に行うことができる。
論文 参考訳(メタデータ) (2021-07-15T15:49:30Z) - Model-Advantage Optimization for Model-Based Reinforcement Learning [41.13567626667456]
モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。
モデル学習を最大限に活用するためのモデル学習パラダイムであるバリューアウェアモデル学習は,学習ポリシーの価値関数を通じてモデル学習に通知することを提案する。
本稿では、2つのモデルにまたがるポリシーの絶対的な性能差の上限である新しい値認識目的を提案する。
論文 参考訳(メタデータ) (2021-06-26T20:01:28Z) - MBRL-Lib: A Modular Library for Model-based Reinforcement Learning [13.467075854633213]
PyTorchに基づく継続的ステートアクション空間におけるモデルベースの強化学習のための機械学習ライブラリであるMBRL-Libを紹介した。
研究者の双方にとって、新しいアルゴリズムを簡単に開発、デバッグ、比較し、専門家でないユーザーと組み合わせて、最先端のアルゴリズムのデプロイのエントリーバーを低くするプラットフォームとして設計されている。
論文 参考訳(メタデータ) (2021-04-20T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。