論文の概要: Local Search for Policy Iteration in Continuous Control
- arxiv url: http://arxiv.org/abs/2010.05545v1
- Date: Mon, 12 Oct 2020 09:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:20:49.379241
- Title: Local Search for Policy Iteration in Continuous Control
- Title(参考訳): 連続制御における政策イテレーションの局所探索
- Authors: Jost Tobias Springenberg, Nicolas Heess, Daniel Mankowitz, Josh Merel,
Arunkumar Byravan, Abbas Abdolmaleki, Jackie Kay, Jonas Degrave, Julian
Schrittwieser, Yuval Tassa, Jonas Buchli, Dan Belov, Martin Riedmiller
- Abstract要約: 強化学習における局所的・正規化・政策改善のためのアルゴリズムを提案する。
我々のアルゴリズムは、KL正規化RLの自然な拡張として解釈できる。
モデルベースRLに起因するいくつかの利点は、単により多くの計算を利用することで、モデルなしで得られることを実証する。
- 参考スコア(独自算出の注目度): 23.344564466985656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an algorithm for local, regularized, policy improvement in
reinforcement learning (RL) that allows us to formulate model-based and
model-free variants in a single framework. Our algorithm can be interpreted as
a natural extension of work on KL-regularized RL and introduces a form of tree
search for continuous action spaces. We demonstrate that additional computation
spent on model-based policy improvement during learning can improve data
efficiency, and confirm that model-based policy improvement during action
selection can also be beneficial. Quantitatively, our algorithm improves data
efficiency on several continuous control benchmarks (when a model is learned in
parallel), and it provides significant improvements in wall-clock time in
high-dimensional domains (when a ground truth model is available). The unified
framework also helps us to better understand the space of model-based and
model-free algorithms. In particular, we demonstrate that some benefits
attributed to model-based RL can be obtained without a model, simply by
utilizing more computation.
- Abstract(参考訳): モデルベースおよびモデルフリーな変種を1つのフレームワークで定式化できる強化学習(RL)における局所的・正規化・政策改善のためのアルゴリズムを提案する。
本アルゴリズムは,kl正規化rlに対する作業の自然な拡張として解釈でき,連続作用空間に対する木探索の一形態を導入する。
学習中のモデルベースのポリシー改善に費やす追加計算がデータ効率を向上させることを示し、行動選択におけるモデルベースのポリシー改善も有益であることを示す。
定量的に、本アルゴリズムは複数の連続制御ベンチマーク(モデルが並列に学習される場合)のデータ効率を改善し、高次元領域(基底真理モデルが利用可能である場合)における壁時計時間を大幅に改善する。
統一されたフレームワークは、モデルベースおよびモデルフリーアルゴリズムの空間をよりよく理解するのに役立ちます。
特に,モデルに基づく RL に起因した利点が,単に計算量を増やすことで,モデルなしで得られることを示す。
関連論文リスト
- The Virtues of Laziness in Model-based RL: A Unified Objective and
Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。
我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。
提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文 参考訳(メタデータ) (2023-03-01T17:42:26Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Learning Robust Controllers Via Probabilistic Model-Based Policy Search [2.886634516775814]
このような方法で学習したコントローラが、環境の小さな摂動の下で頑健であり、一般化できるかどうかを考察する。
ガウス過程のダイナミックスモデルにおける確率雑音に対する低拘束がポリシー更新を規則化し、より堅牢なコントローラが得られることを示す。
論文 参考訳(メタデータ) (2021-10-26T11:17:31Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。