論文の概要: EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL
- arxiv url: http://arxiv.org/abs/2007.11091v2
- Date: Wed, 13 Jan 2021 19:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 04:23:09.628168
- Title: EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL
- Title(参考訳): EMaQ: シンプルで効果的なオフラインとオンラインRLのためのQ-Learningオペレータ
- Authors: Seyed Kamyar Seyed Ghasemipour, Dale Schuurmans, Shixiang Shane Gu
- Abstract要約: オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
- 参考スコア(独自算出の注目度): 48.552287941528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy reinforcement learning holds the promise of sample-efficient
learning of decision-making policies by leveraging past experience. However, in
the offline RL setting -- where a fixed collection of interactions are provided
and no further interactions are allowed -- it has been shown that standard
off-policy RL methods can significantly underperform. Recently proposed methods
often aim to address this shortcoming by constraining learned policies to
remain close to the given dataset of interactions. In this work, we closely
investigate an important simplification of BCQ -- a prior approach for offline
RL -- which removes a heuristic design choice and naturally restricts extracted
policies to remain exactly within the support of a given behavior policy.
Importantly, in contrast to their original theoretical considerations, we
derive this simplified algorithm through the introduction of a novel backup
operator, Expected-Max Q-Learning (EMaQ), which is more closely related to the
resulting practical algorithm. Specifically, in addition to the distribution
support, EMaQ explicitly considers the number of samples and the proposal
distribution, allowing us to derive new sub-optimality bounds which can serve
as a novel measure of complexity for offline RL problems. In the offline RL
setting -- the main focus of this work -- EMaQ matches and outperforms prior
state-of-the-art in the D4RL benchmarks. In the online RL setting, we
demonstrate that EMaQ is competitive with Soft Actor Critic. The key
contributions of our empirical findings are demonstrating the importance of
careful generative model design for estimating behavior policies, and an
intuitive notion of complexity for offline RL problems. With its simple
interpretation and fewer moving parts, such as no explicit function
approximator representing the policy, EMaQ serves as a strong yet easy to
implement baseline for future work.
- Abstract(参考訳): オフ政治強化学習は、過去の経験を生かして意思決定政策のサンプル効率の高い学習を約束する。
しかしながら、オフラインのRL設定 -- 特定のインタラクションのコレクションが提供され、それ以上のインタラクションが許可されていない -- では、標準のオフポリティなRLメソッドが大幅に性能が低下する可能性があることが示されている。
最近提案された手法は、与えられた相互作用のデータセットに近づくように学習ポリシーを制約することで、この欠点に対処することを目的としている。
本稿では,BCQ の重要な単純化 - オフライン RL に対する以前のアプローチ - について詳しく検討する。これはヒューリスティックな設計選択を排除し,抽出したポリシーを与えられた行動ポリシーの支持範囲内に留まるように自然に制限する。
重要となるのは,従来の理論的な考察とは対照的に,新しいバックアップ演算子であるexped-max q-learning (emaq) の導入により,この簡易化アルゴリズムを導出することである。
具体的には、分布支援に加えて、EMaQはサンプル数と提案分布を明示的に考慮し、オフラインRL問題に対する新しい複雑性尺度として機能する、新しい準最適境界を導出することができる。
オフラインのRL設定 -- この作業の主な焦点 -- では、EMaQはD4RLベンチマークにおいて、以前の最先端よりも優れています。
オンラインRL設定では、EMaQがSoft Actor Criticと競合していることを示す。
実験結果の鍵となる貢献は,行動方針推定における注意深い生成モデル設計の重要性と,オフラインrl問題に対する複雑さの直感的概念の実証である。
そのシンプルな解釈と、ポリシーを表す明示的な関数近似子など、より少ない可動部により、EMaQは、将来の作業のベースラインを実装するのに強力だが容易である。
関連論文リスト
- Offline Reinforcement Learning for Wireless Network Optimization with
Mixture Datasets [13.22086908661673]
強化学習(RL)により、無線無線リソース管理(RRM)におけるオンラインRLの採用が促進された。
オンラインRLアルゴリズムは環境と直接対話する必要がある。
オフラインのRLは、すべての関連する行動ポリシーが非常に最適である場合でも、ほぼ最適のRLポリシーを生成することができる。
論文 参考訳(メタデータ) (2023-11-19T21:02:17Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Revisiting the Linear-Programming Framework for Offline RL with General
Function Approximation [24.577243536475233]
オフライン強化学習(RL)は、事前に収集されたデータセットからシーケンシャルな意思決定のための最適なポリシーを追求する。
近年の理論的進歩は、データカバレッジと関数近似器に関する様々な緩和された仮定を持つサンプル効率の良いオフラインRLアルゴリズムの開発に焦点が当てられている。
オフラインRLのための線形プログラミングフレームワークを再検討し、いくつかの面で既存の結果を前進させます。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。