論文の概要: Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization
- arxiv url: http://arxiv.org/abs/2303.15810v1
- Date: Tue, 28 Mar 2023 08:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 15:53:39.987796
- Title: Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization
- Title(参考訳): OODアクションのないオフラインRL:暗黙の値規則化によるサンプル内学習
- Authors: Haoran Xu, Li Jiang, Jianxiong Li, Zhuoran Yang, Zhaoran Wang, Victor
Wai Kin Chan, Xianyuan Zhan
- Abstract要約: インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 90.9780151608281
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most offline reinforcement learning (RL) methods suffer from the trade-off
between improving the policy to surpass the behavior policy and constraining
the policy to limit the deviation from the behavior policy as computing
$Q$-values using out-of-distribution (OOD) actions will suffer from errors due
to distributional shift. The recently proposed \textit{In-sample Learning}
paradigm (i.e., IQL), which improves the policy by quantile regression using
only data samples, shows great promise because it learns an optimal policy
without querying the value function of any unseen actions. However, it remains
unclear how this type of method handles the distributional shift in learning
the value function. In this work, we make a key finding that the in-sample
learning paradigm arises under the \textit{Implicit Value Regularization} (IVR)
framework. This gives a deeper understanding of why the in-sample learning
paradigm works, i.e., it applies implicit value regularization to the policy.
Based on the IVR framework, we further propose two practical algorithms, Sparse
$Q$-learning (SQL) and Exponential $Q$-learning (EQL), which adopt the same
value regularization used in existing works, but in a complete in-sample
manner. Compared with IQL, we find that our algorithms introduce sparsity in
learning the value function, making them more robust in noisy data regimes. We
also verify the effectiveness of SQL and EQL on D4RL benchmark datasets and
show the benefits of in-sample learning by comparing them with CQL in small
data regimes.
- Abstract(参考訳): ほとんどのオフライン強化学習(RL)手法は、行動ポリシーを超越する政策の改善と、行動ポリシーからの逸脱を制限する政策の制約のトレードオフに悩まされる。
最近提案された \textit{in-sample learning}パラダイム(すなわち、iql)は、データサンプルのみを使用して回帰を定量化することで、ポリシーを改善する。
しかし,この手法が値関数の学習における分布シフトをどのように扱うかは,まだ不明である。
本研究では,インサンプル学習パラダイムが<textit{Implicit Value Regularization} (IVR) フレームワークの下で発生することを明らかにする。
このことは、なぜサンプル内学習パラダイムが機能するのか、すなわち、政策に暗黙の値正規化を適用するのかを深く理解する。
IVRフレームワークをベースとして,既存の作業で使用されているのと同じ値正規化を採用したSparse $Q$-learning (SQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
IQLと比較すると、私たちのアルゴリズムはバリュー関数の学習に疎結合を導入し、ノイズの多いデータ構造においてより堅牢になる。
また、D4RLベンチマークデータセットにおけるSQLとEQLの有効性を検証するとともに、小さなデータ構造におけるCQLと比較することで、サンプル内学習のメリットを示す。
関連論文リスト
- AlignIQL: Policy Alignment in Implicit Q-Learning through Constrained Optimization [9.050431569438636]
暗黙のQ-ラーニングはオフラインRLの強力なベースラインとして機能する。
我々は,この問題を最適化問題として定式化することで,暗黙的な政策決定問題(IPF)を解決する方法を紹介した。
IQLやIDQLと比較して、当社のメソッドはIQLの単純さを維持し、暗黙のポリシー決定問題を解決する。
論文 参考訳(メタデータ) (2024-05-28T14:01:03Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies [72.4573167739712]
Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングする。
この訓練されたQ-関数で表される値が実際にどのポリシーで達成されるのかは不明である。
我々はImplicit Q-learning (IDQL)を導入し、一般のIQL批判とポリシー抽出手法を組み合わせた。
論文 参考訳(メタデータ) (2023-04-20T18:04:09Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。