論文の概要: AlignIQL: Policy Alignment in Implicit Q-Learning through Constrained Optimization
- arxiv url: http://arxiv.org/abs/2405.18187v1
- Date: Tue, 28 May 2024 14:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 18:29:23.860533
- Title: AlignIQL: Policy Alignment in Implicit Q-Learning through Constrained Optimization
- Title(参考訳): AlignIQL: 制約付き最適化による暗黙のQ-Learningにおけるポリシーアライメント
- Authors: Longxiang He, Li Shen, Junbo Tan, Xueqian Wang,
- Abstract要約: 暗黙のQ-ラーニングはオフラインRLの強力なベースラインとして機能する。
我々は,この問題を最適化問題として定式化することで,暗黙的な政策決定問題(IPF)を解決する方法を紹介した。
IQLやIDQLと比較して、当社のメソッドはIQLの単純さを維持し、暗黙のポリシー決定問題を解決する。
- 参考スコア(独自算出の注目度): 9.050431569438636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit Q-learning (IQL) serves as a strong baseline for offline RL, which learns the value function using only dataset actions through quantile regression. However, it is unclear how to recover the implicit policy from the learned implicit Q-function and why IQL can utilize weighted regression for policy extraction. IDQL reinterprets IQL as an actor-critic method and gets weights of implicit policy, however, this weight only holds for the optimal value function. In this work, we introduce a different way to solve the implicit policy-finding problem (IPF) by formulating this problem as an optimization problem. Based on this optimization problem, we further propose two practical algorithms AlignIQL and AlignIQL-hard, which inherit the advantages of decoupling actor from critic in IQL and provide insights into why IQL can use weighted regression for policy extraction. Compared with IQL and IDQL, we find our method keeps the simplicity of IQL and solves the implicit policy-finding problem. Experimental results on D4RL datasets show that our method achieves competitive or superior results compared with other SOTA offline RL methods. Especially in complex sparse reward tasks like Antmaze and Adroit, our method outperforms IQL and IDQL by a significant margin.
- Abstract(参考訳): Implicit Q-learning(IQL)は、オフラインRLの強力なベースラインとして機能し、量子回帰を通じてデータセットアクションのみを使用して値関数を学習する。
しかし、学習した暗黙のQ-関数から暗黙のポリシーを回復する方法や、なぜIQLが重み付けされた回帰をポリシー抽出に利用できるのかは定かではない。
IDQLは、IQLをアクタークリティカルなメソッドとして解釈し、暗黙のポリシーの重みを取得するが、この重みは最適な値関数のみを保持する。
本研究では,この問題を最適化問題として定式化することで,暗黙的な政策決定問題(IPF)を解決する方法を紹介する。
この最適化問題に基づいて、我々はさらに2つの実用的なアルゴリズムAlignIQLとAlignIQL-hardを提案する。
IQLやIDQLと比較して、当社のメソッドはIQLの単純さを維持し、暗黙のポリシー決定問題を解決する。
D4RLデータセットに対する実験結果から,他のSOTAオフラインRL手法と比較して,本手法は競争力や優れた結果が得られることが示された。
特にAntmazeやAdroitのような複雑なスパース報酬タスクでは、当社のメソッドはIQLやIDQLよりも大幅に優れています。
関連論文リスト
- Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies [72.4573167739712]
Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングする。
この訓練されたQ-関数で表される値が実際にどのポリシーで達成されるのかは不明である。
我々はImplicit Q-learning (IDQL)を導入し、一般のIQL批判とポリシー抽出手法を組み合わせた。
論文 参考訳(メタデータ) (2023-04-20T18:04:09Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Control with adaptive Q-learning [0.0]
本稿では,RL学習のための2つのアルゴリズムについて検討する。
AQLは、制御ポリシを学習しながら、Markov決定プロセス(MDP)の状態-アクション空間を適応的に分割する。
SPAQLは、状態からアクションへのマッピングがタイムステップに明示的に依存しない、時間不変のポリシーを学ぶ。
論文 参考訳(メタデータ) (2020-11-03T18:58:55Z) - Single-partition adaptive Q-learning [0.0]
SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。
多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。
SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
論文 参考訳(メタデータ) (2020-07-14T00:03:25Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。