論文の概要: Maximum Entropy Model Rollouts: Fast Model Based Policy Optimization
without Compounding Errors
- arxiv url: http://arxiv.org/abs/2006.04802v2
- Date: Mon, 29 Jun 2020 00:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 01:00:21.012883
- Title: Maximum Entropy Model Rollouts: Fast Model Based Policy Optimization
without Compounding Errors
- Title(参考訳): 最大エントロピーモデルロールアウト:複合エラーを伴わない高速モデルに基づくポリシー最適化
- Authors: Chi Zhang, Sanmukh Rao Kuppannagari, Viktor K Prasanna
- Abstract要約: 我々は、最大エントロピーモデルロールアウト(MEMR)と呼ばれるダイナスタイルモデルに基づく強化学習アルゴリズムを提案する。
複雑なエラーをなくすために、我々はモデルを使って単一ステップのロールアウトを生成する。
- 参考スコア(独自算出の注目度): 10.906666680425754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model usage is the central challenge of model-based reinforcement learning.
Although dynamics model based on deep neural networks provide good
generalization for single step prediction, such ability is over exploited when
it is used to predict long horizon trajectories due to compounding errors. In
this work, we propose a Dyna-style model-based reinforcement learning
algorithm, which we called Maximum Entropy Model Rollouts (MEMR). To eliminate
the compounding errors, we only use our model to generate single-step rollouts.
Furthermore, we propose to generate \emph{diverse} model rollouts by
non-uniform sampling of the environment states such that the entropy of the
model rollouts is maximized. We mathematically derived the maximum entropy
sampling criteria for one data case under Gaussian prior. To accomplish this
criteria, we propose to utilize a prioritized experience replay. Our
preliminary experiments in challenging locomotion benchmarks show that our
approach achieves the same sample efficiency of the best model-based
algorithms, matches the asymptotic performance of the best model-free
algorithms, and significantly reduces the computation requirements of other
model-based methods.
- Abstract(参考訳): モデルベース強化学習では,モデル利用が中心的な課題である。
ディープニューラルネットワークに基づくダイナミクスモデルは、単一ステップ予測に優れた一般化を提供するが、複雑なエラーによる長い水平軌道の予測に使用される場合、そのような能力は過剰に活用される。
本研究では,最大エントロピーモデルロールアウト(MEMR)と呼ばれるDynaスタイルのモデルベース強化学習アルゴリズムを提案する。
複雑なエラーをなくすために、我々はモデルを使って単一ステップのロールアウトを生成する。
さらに, モデルロールアウトのエントロピーが最大になるような環境状態の非一様サンプリングにより, モデルロールアウトを生成することを提案する。
ガウス以前の1つのデータケースに対する最大エントロピーサンプリング基準を数学的に導出した。
この基準を達成するために,優先された体験再生を活用することを提案する。
提案手法は, 最適モデルベースアルゴリズムのサンプル効率を向上し, 最適モデルフリーアルゴリズムの漸近性能と一致し, その他のモデルベース手法の計算要求を大幅に低減することを示す。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - On Statistical Efficiency in Learning [37.08000833961712]
モデルフィッティングとモデル複雑性のバランスをとるためのモデル選択の課題に対処する。
モデルの複雑さを順次拡大し、選択安定性を高め、コストを削減するオンラインアルゴリズムを提案します。
実験の結果, 提案手法は予測能力が高く, 計算コストが比較的低いことがわかった。
論文 参考訳(メタデータ) (2020-12-24T16:08:29Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Active Sampling for Min-Max Fairness [28.420886416425077]
min-maxフェアネスを最適化するための簡易なアクティブサンプリングと再重み付け手法を提案する。
実装の容易さとロバストな定式化の汎用性により、不備な群におけるモデル性能を改善するための魅力的な選択肢となる。
線形回帰法やロジスティック回帰法のような凸学習問題に対しては、分極値解への収束率を証明し、きめ細かな解析を行う。
論文 参考訳(メタデータ) (2020-06-11T23:57:55Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。