論文の概要: IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies
- arxiv url: http://arxiv.org/abs/2304.10573v1
- Date: Thu, 20 Apr 2023 18:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 16:52:48.956975
- Title: IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies
- Title(参考訳): IDQL: 拡散ポリシを用いたアクタクリティカルなQ-ラーニング
- Authors: Philippe Hansen-Estruch, Ilya Kostrikov, Michael Janner, Jakub
Grudzien Kuba, Sergey Levine
- Abstract要約: Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングする。
この訓練されたQ-関数で表される値が実際にどのポリシーで達成されるのかは不明である。
我々はImplicit Q-learning (IDQL)を導入し、一般のIQL批判とポリシー抽出手法を組み合わせた。
- 参考スコア(独自算出の注目度): 72.4573167739712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective offline RL methods require properly handling out-of-distribution
actions. Implicit Q-learning (IQL) addresses this by training a Q-function
using only dataset actions through a modified Bellman backup. However, it is
unclear which policy actually attains the values represented by this implicitly
trained Q-function. In this paper, we reinterpret IQL as an actor-critic method
by generalizing the critic objective and connecting it to a
behavior-regularized implicit actor. This generalization shows how the induced
actor balances reward maximization and divergence from the behavior policy,
with the specific loss choice determining the nature of this tradeoff. Notably,
this actor can exhibit complex and multimodal characteristics, suggesting
issues with the conditional Gaussian actor fit with advantage weighted
regression (AWR) used in prior methods. Instead, we propose using samples from
a diffusion parameterized behavior policy and weights computed from the critic
to then importance sampled our intended policy. We introduce Implicit Diffusion
Q-learning (IDQL), combining our general IQL critic with the policy extraction
method. IDQL maintains the ease of implementation of IQL while outperforming
prior offline RL methods and demonstrating robustness to hyperparameters. Code
is available at https://github.com/philippe-eecs/IDQL.
- Abstract(参考訳): 効果的なオフラインRLメソッドは、配布外アクションを適切に処理する必要がある。
Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングすることで、この問題に対処する。
しかしながら、この暗黙的に訓練されたq関数で表される値が実際にどのポリシーで達成されるのかは不明である。
本稿では,批判対象を一般化し,行動規範化された暗黙的アクタと接続することにより,iqlをアクタ批判的手法として再解釈する。
この一般化は、誘導されたアクターが、このトレードオフの性質を決定する特定の損失選択とともに、行動方針からの報酬の最大化と分散のバランスを示す。
特に、このアクターは複雑でマルチモーダルな特性を示し、条件付きガウス型アクターが以前の手法で使われるアドバンテージ重み付け回帰 (awr) に適合する問題を提案する。
代わりに,拡散パラメータ化行動ポリシーのサンプルと,評価者から計算した重みを用いて,目的とする政策の標本化を重要視する。
一般的なiql批判とポリシ抽出法を組み合わせた,暗黙的拡散q-learning(idql)を導入する。
IDQLは、IQLの実装の容易さを維持しながら、以前のオフラインRLメソッドよりも優れ、ハイパーパラメータに対する堅牢性を示している。
コードはhttps://github.com/philippe-eecs/idqlで入手できる。
関連論文リスト
- Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning [13.163511229897667]
オフライン強化学習(RL)では、価値関数の過大評価を防ぐために、配布外動作を管理する必要がある。
拡散雑音回帰問題としてクルバック・リブラー (KL) 制約ポリシーの繰り返しを定式化する拡散アクタ・クリティカル (DAC) を提案する。
提案手法はD4RLベンチマークで評価され,ほぼすべての環境において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-31T00:41:04Z) - AlignIQL: Policy Alignment in Implicit Q-Learning through Constrained Optimization [9.050431569438636]
暗黙のQ-ラーニングはオフラインRLの強力なベースラインとして機能する。
我々は,この問題を最適化問題として定式化することで,暗黙的な政策決定問題(IPF)を解決する方法を紹介した。
IQLやIDQLと比較して、当社のメソッドはIQLの単純さを維持し、暗黙のポリシー決定問題を解決する。
論文 参考訳(メタデータ) (2024-05-28T14:01:03Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Quantile Filtered Imitation Learning [49.11859771578969]
量子フィルタ模倣学習(QFIL)は、オフライン強化学習用に設計されたポリシー改善演算子である。
我々はQFILが機能近似による安全なポリシー改善のステップを提供することを証明した。
QFILはD4RLベンチマークでよく機能します。
論文 参考訳(メタデータ) (2021-12-02T03:08:23Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。