論文の概要: Extreme Q-Learning: MaxEnt RL without Entropy
- arxiv url: http://arxiv.org/abs/2301.02328v1
- Date: Thu, 5 Jan 2023 23:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 23:32:54.891353
- Title: Extreme Q-Learning: MaxEnt RL without Entropy
- Title(参考訳): 極Q学習:エントロピーのないMaxEnt RL
- Authors: Divyansh Garg, Joey Hejna, Matthieu Geist, Stefano Ermon
- Abstract要約: 現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
- 参考スコア(独自算出の注目度): 88.97516083146371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Deep Reinforcement Learning (RL) algorithms require estimates of the
maximal Q-value, which are difficult to compute in continuous domains with an
infinite number of possible actions. In this work, we introduce a new update
rule for online and offline RL which directly models the maximal value using
Extreme Value Theory (EVT), drawing inspiration from Economics. By doing so, we
avoid computing Q-values using out-of-distribution actions which is often a
substantial source of error. Our key insight is to introduce an objective that
directly estimates the optimal soft-value functions (LogSumExp) in the maximum
entropy RL setting without needing to sample from a policy. Using EVT, we
derive our Extreme Q-Learning framework and consequently online and, for the
first time, offline MaxEnt Q-learning algorithms, that do not explicitly
require access to a policy or its entropy. Our method obtains consistently
strong performance in the D4RL benchmark, outperforming prior works by 10+
points on some tasks while offering moderate improvements over SAC and TD3 on
online DM Control tasks.
- Abstract(参考訳): 最新の深層強化学習(rl)アルゴリズムでは最大q値の推定が必要であり、無限個の可能なアクションを持つ連続領域では計算が困難である。
本稿では,極値理論(evt)を用いて最大値を直接モデル化し,経済学からインスピレーションを得たオンラインおよびオフラインrlの新しい更新ルールを提案する。
これにより、しばしば重大なエラーの原因となる分布外動作を用いてQ値の計算を避けることができる。
我々の重要な洞察は、ポリシーからサンプルを採取することなく、最大エントロピーRL設定において最適なソフトバリュー関数(LogSumExp)を直接推定する目的を導入することである。
EVTを使用することで、Extreme Q-Learningフレームワークをオンライン化し、その結果、ポリシーやそのエントロピーに明示的にアクセスする必要のない、オフラインのMaxEnt Q-learningアルゴリズムを初めて提供します。
提案手法はD4RLベンチマークにおいて一貫した性能を得るとともに,オンラインDM制御タスクにおいてSACとTD3を適度に改善した上で,先行処理を10以上のポイントで上回っている。
関連論文リスト
- Efficient Diffusion Policies for Offline Reinforcement Learning [100.63115223355683]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Sequence Modeling is a Robust Contender for Offline Reinforcement
Learning [24.551465814633328]
オフラインRLの3つの主要なパラダイムは、Q-Learning、Imitation Learning、Sequence Modelingである。
一般的なD4RLおよびロボミミックベンチマークにおける代表アルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2023-05-23T22:19:14Z) - Bridging RL Theory and Practice with the Effective Horizon [10.65673380743972]
先行境界は、深いRLが成功するか失敗するかは相関しないことを示す。
我々はこれを、有効地平線と呼ぶ新しいMDPの複雑さ尺度に一般化する。
また,既存の境界と異なり,実効地平線は,報酬形成や事前訓練された探査政策を用いることの効果を予測できることを示した。
論文 参考訳(メタデータ) (2023-04-19T17:59:01Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。