Fugu-MT 論文翻訳(概要): COMBO: Conservative Offline Model-Based Policy Optimization

論文の概要: COMBO: Conservative Offline Model-Based Policy Optimization

arxiv url: http://arxiv.org/abs/2102.08363v1
Date: Tue, 16 Feb 2021 18:50:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-17 15:12:16.329091
Title: COMBO: Conservative Offline Model-Based Policy Optimization
Title（参考訳）: COMBO:保守的なオフラインモデルに基づく政策最適化
Authors: Tianhe Yu, Aviral Kumar, Rafael Rafailov, Aravind Rajeswaran, Sergey Levine, Chelsea Finn
Abstract要約: ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
参考スコア（独自算出の注目度）: 120.55713363569845
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model-based algorithms, which learn a dynamics model from logged experience and perform some sort of pessimistic planning under the learned model, have emerged as a promising paradigm for offline reinforcement learning (offline RL). However, practical variants of such model-based algorithms rely on explicit uncertainty quantification for incorporating pessimism. Uncertainty estimation with complex models, such as deep neural networks, can be difficult and unreliable. We overcome this limitation by developing a new model-based offline RL algorithm, COMBO, that regularizes the value function on out-of-support state-action tuples generated via rollouts under the learned model. This results in a conservative estimate of the value function for out-of-support state-action tuples, without requiring explicit uncertainty estimation. We theoretically show that our method optimizes a lower bound on the true policy value, that this bound is tighter than that of prior methods, and our approach satisfies a policy improvement guarantee in the offline setting. Through experiments, we find that COMBO consistently performs as well or better as compared to prior offline model-free and model-based methods on widely studied offline RL benchmarks, including image-based tasks.
Abstract（参考訳）: ログ化された経験からダイナミックスモデルを学習し、学習モデルの下である種の悲観的な計画を実行するモデルベースアルゴリズムは、オフライン強化学習(オフラインRL)の有望なパラダイムとして登場した。しかし、そのようなモデルに基づくアルゴリズムの実践的な変種は、悲観論を取り入れるための明確な不確実性定量化に依存している。ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。この制限を克服するために,学習モデルの下でロールアウトによって生成された状態動作タプルの値関数を正則化する,モデルベースのオフラインrlアルゴリズムであるcomboを開発した。これにより、明確な不確実性推定を必要とせず、サポート外状態-動作タプルの値関数を保守的に推定できる。理論的には,本手法は真の政策値の下位境界を最適化し,この境界が従来の手法よりも厳密であることを示し,オフライン環境での政策改善の保証を満足する。実験により,画像ベースタスクを含む広く研究されているオフラインrlベンチマークにおいて,コンボは,先行したオフラインモデルフリーおよびモデルベース手法と比較して,一貫して優れた性能を発揮することがわかった。

関連論文リスト

VIPO: Value Function Inconsistency Penalized Offline Reinforcement Learning [10.834719840008308]
VIPOは、価値推定から自己教師付きフィードバックを取り入れて、モデルトレーニングを強化する、新しいモデルベースのオフラインRLアルゴリズムである。 VIPOはD4RLとNeoRLベンチマークのほぼすべてのタスクで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-16T10:23:44Z)
Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。 D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文参考訳（メタデータ） (2024-02-05T10:18:15Z)
Model-based Offline Policy Optimization with Adversarial Network [0.36868085124383626]
本稿では,新たなモデルベースオフラインポリシー最適化フレームワーク(MOAN)を提案する。主なアイデアは、敵の学習を使って、より良い一般化を伴う遷移モデルを構築することである。我々の手法は、広く研究されているオフラインRLベンチマークにおいて、最先端のベースラインよりも優れている。
論文参考訳（メタデータ） (2023-09-05T11:49:33Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Pessimistic Q-Learning for Offline Reinforcement Learning: Towards Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-28T15:39:36Z)
Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文参考訳（メタデータ） (2021-10-08T13:51:34Z)
DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文参考訳（メタデータ） (2021-09-15T13:25:14Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)
MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文参考訳（メタデータ） (2020-05-27T08:46:41Z)
Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文参考訳（メタデータ） (2020-05-16T19:18:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。