論文の概要: Extreme Q-Learning: MaxEnt RL without Entropy
- arxiv url: http://arxiv.org/abs/2301.02328v1
- Date: Thu, 5 Jan 2023 23:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 23:32:54.891353
- Title: Extreme Q-Learning: MaxEnt RL without Entropy
- Title(参考訳): 極Q学習:エントロピーのないMaxEnt RL
- Authors: Divyansh Garg, Joey Hejna, Matthieu Geist, Stefano Ermon
- Abstract要約: 現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
- 参考スコア(独自算出の注目度): 88.97516083146371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Deep Reinforcement Learning (RL) algorithms require estimates of the
maximal Q-value, which are difficult to compute in continuous domains with an
infinite number of possible actions. In this work, we introduce a new update
rule for online and offline RL which directly models the maximal value using
Extreme Value Theory (EVT), drawing inspiration from Economics. By doing so, we
avoid computing Q-values using out-of-distribution actions which is often a
substantial source of error. Our key insight is to introduce an objective that
directly estimates the optimal soft-value functions (LogSumExp) in the maximum
entropy RL setting without needing to sample from a policy. Using EVT, we
derive our Extreme Q-Learning framework and consequently online and, for the
first time, offline MaxEnt Q-learning algorithms, that do not explicitly
require access to a policy or its entropy. Our method obtains consistently
strong performance in the D4RL benchmark, outperforming prior works by 10+
points on some tasks while offering moderate improvements over SAC and TD3 on
online DM Control tasks.
- Abstract(参考訳): 最新の深層強化学習(rl)アルゴリズムでは最大q値の推定が必要であり、無限個の可能なアクションを持つ連続領域では計算が困難である。
本稿では,極値理論(evt)を用いて最大値を直接モデル化し,経済学からインスピレーションを得たオンラインおよびオフラインrlの新しい更新ルールを提案する。
これにより、しばしば重大なエラーの原因となる分布外動作を用いてQ値の計算を避けることができる。
我々の重要な洞察は、ポリシーからサンプルを採取することなく、最大エントロピーRL設定において最適なソフトバリュー関数(LogSumExp)を直接推定する目的を導入することである。
EVTを使用することで、Extreme Q-Learningフレームワークをオンライン化し、その結果、ポリシーやそのエントロピーに明示的にアクセスする必要のない、オフラインのMaxEnt Q-learningアルゴリズムを初めて提供します。
提案手法はD4RLベンチマークにおいて一貫した性能を得るとともに,オンラインDM制御タスクにおいてSACとTD3を適度に改善した上で,先行処理を10以上のポイントで上回っている。
関連論文リスト
- UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning [10.593924216046977]
まず,MSEによる過大評価現象を理論的に解析し,過大評価誤差の理論的上限を与える。
最後に、過小評価演算子と拡散ポリシーモデルに基づくオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T14:37:42Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文 参考訳(メタデータ) (2022-06-09T19:44:35Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。