論文の概要: Variational Model-based Policy Optimization
- arxiv url: http://arxiv.org/abs/2006.05443v2
- Date: Wed, 24 Jun 2020 01:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 13:25:55.412887
- Title: Variational Model-based Policy Optimization
- Title(参考訳): 変分モデルに基づく政策最適化
- Authors: Yinlam Chow and Brandon Cui and MoonKyung Ryu and Mohammad Ghavamzadeh
- Abstract要約: モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
- 参考スコア(独自算出の注目度): 34.80171122943031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (RL) algorithms allow us to combine
model-generated data with those collected from interaction with the real system
in order to alleviate the data efficiency problem in RL. However, designing
such algorithms is often challenging because the bias in simulated data may
overshadow the ease of data generation. A potential solution to this challenge
is to jointly learn and improve model and policy using a universal objective
function. In this paper, we leverage the connection between RL and
probabilistic inference, and formulate such an objective function as a
variational lower-bound of a log-likelihood. This allows us to use expectation
maximization (EM) and iteratively fix a baseline policy and learn a variational
distribution, consisting of a model and a policy (E-step), followed by
improving the baseline policy given the learned variational distribution
(M-step). We propose model-based and model-free policy iteration (actor-critic)
style algorithms for the E-step and show how the variational distribution
learned by them can be used to optimize the M-step in a fully model-based
fashion. Our experiments on a number of continuous control tasks show that
despite being more complex, our model-based (E-step) algorithm, called {\em
variational model-based policy optimization} (VMBPO), is more sample-efficient
and robust to hyper-parameter tuning than its model-free (E-step) counterpart.
Using the same control tasks, we also compare VMBPO with several
state-of-the-art model-based and model-free RL algorithms and show its sample
efficiency and performance.
- Abstract(参考訳): モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
しかし、シミュレーションデータのバイアスがデータ生成の容易さを覆す可能性があるため、そのようなアルゴリズムを設計することはしばしば困難である。
この課題に対する潜在的な解決策は、普遍目的関数を使ってモデルとポリシーを共同学習し、改善することである。
本稿では, rl と確率的推論との関係を活用し, 対象関数をlog-likelihood の変分下限として定式化する。
これにより、予測最大化(EM)を使い、ベースラインポリシーを反復的に修正し、モデルとポリシー(E-step)からなる変分分布を学習し、学習された変分分布(M-step)からベースラインポリシーを改善することができる。
本稿では,Eステップに対するモデルベースおよびモデルフリーポリシー反復(アクタークリティカル)方式のアルゴリズムを提案し,モデルベース方式でMステップを最適化するために,それらが学習した変分分布をどのように利用できるかを示す。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、モデルフリー(Eステップ)アルゴリズムよりもサンプル効率が高く、高パラメータチューニングに頑健であることが示された。
同じ制御タスクを用いて、VMBPOと最先端モデルベースおよびモデルフリーRLアルゴリズムを比較し、そのサンプル効率と性能を示す。
関連論文リスト
- The Virtues of Laziness in Model-based RL: A Unified Objective and
Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。
我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。
提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文 参考訳(メタデータ) (2023-03-01T17:42:26Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。