論文の概要: COMBO: Conservative Offline Model-Based Policy Optimization
- arxiv url: http://arxiv.org/abs/2102.08363v1
- Date: Tue, 16 Feb 2021 18:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:12:16.329091
- Title: COMBO: Conservative Offline Model-Based Policy Optimization
- Title(参考訳): COMBO:保守的なオフラインモデルに基づく政策最適化
- Authors: Tianhe Yu, Aviral Kumar, Rafael Rafailov, Aravind Rajeswaran, Sergey
Levine, Chelsea Finn
- Abstract要約: ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
- 参考スコア(独自算出の注目度): 120.55713363569845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based algorithms, which learn a dynamics model from logged experience
and perform some sort of pessimistic planning under the learned model, have
emerged as a promising paradigm for offline reinforcement learning (offline
RL). However, practical variants of such model-based algorithms rely on
explicit uncertainty quantification for incorporating pessimism. Uncertainty
estimation with complex models, such as deep neural networks, can be difficult
and unreliable. We overcome this limitation by developing a new model-based
offline RL algorithm, COMBO, that regularizes the value function on
out-of-support state-action tuples generated via rollouts under the learned
model. This results in a conservative estimate of the value function for
out-of-support state-action tuples, without requiring explicit uncertainty
estimation. We theoretically show that our method optimizes a lower bound on
the true policy value, that this bound is tighter than that of prior methods,
and our approach satisfies a policy improvement guarantee in the offline
setting. Through experiments, we find that COMBO consistently performs as well
or better as compared to prior offline model-free and model-based methods on
widely studied offline RL benchmarks, including image-based tasks.
- Abstract(参考訳): ログ化された経験からダイナミックスモデルを学習し、学習モデルの下である種の悲観的な計画を実行するモデルベースアルゴリズムは、オフライン強化学習(オフラインRL)の有望なパラダイムとして登場した。
しかし、そのようなモデルに基づくアルゴリズムの実践的な変種は、悲観論を取り入れるための明確な不確実性定量化に依存している。
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
この制限を克服するために,学習モデルの下でロールアウトによって生成された状態動作タプルの値関数を正則化する,モデルベースのオフラインrlアルゴリズムであるcomboを開発した。
これにより、明確な不確実性推定を必要とせず、サポート外状態-動作タプルの値関数を保守的に推定できる。
理論的には,本手法は真の政策値の下位境界を最適化し,この境界が従来の手法よりも厳密であることを示し,オフライン環境での政策改善の保証を満足する。
実験により,画像ベースタスクを含む広く研究されているオフラインrlベンチマークにおいて,コンボは,先行したオフラインモデルフリーおよびモデルベース手法と比較して,一貫して優れた性能を発揮することがわかった。
関連論文リスト
- RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning [11.183124892686239]
本稿では,モデルベースオフラインRLの新しいアプローチであるRobust Adversarial Model-Based Offline RL(RAMBO)を提案する。
保守性を達成するため、敵環境モデルに対して2プレイヤーゼロ和ゲームとして問題を定式化する。
我々は,オフラインRLベンチマークに対する我々のアプローチを評価し,我々のアプローチが技術性能の状態を達成できることを実証した。
論文 参考訳(メタデータ) (2022-04-26T20:42:14Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。