論文の概要: Projection Implicit Q-Learning with Support Constraint for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.08907v1
- Date: Wed, 15 Jan 2025 16:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:10.047914
- Title: Projection Implicit Q-Learning with Support Constraint for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための支援制約付き予測型Q-Learning
- Authors: Xinchen Han, Hossam Afifi, Michel Marot,
- Abstract要約: Implicit Q-Learning (IQL)アルゴリズムは、サンプル内学習を実現するために期待できる回帰を採用する。
本稿では,プロジェクティブIQLアルゴリズムであるProj-IQLを提案する。
Proj-IQLはD4RLベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 1.8789068567093286
- License:
- Abstract: Offline Reinforcement Learning (RL) faces a critical challenge of extrapolation errors caused by out-of-distribution (OOD) actions. Implicit Q-Learning (IQL) algorithm employs expectile regression to achieve in-sample learning, effectively mitigating the risks associated with OOD actions. However, the fixed hyperparameter in policy evaluation and density-based policy improvement method limit its overall efficiency. In this paper, we propose Proj-IQL, a projective IQL algorithm enhanced with the support constraint. In the policy evaluation phase, Proj-IQL generalizes the one-step approach to a multi-step approach through vector projection, while maintaining in-sample learning and expectile regression framework. In the policy improvement phase, Proj-IQL introduces support constraint that is more aligned with the policy evaluation approach. Furthermore, we theoretically demonstrate that Proj-IQL guarantees monotonic policy improvement and enjoys a progressively more rigorous criterion for superior actions. Empirical results demonstrate the Proj-IQL achieves state-of-the-art performance on D4RL benchmarks, especially in challenging navigation domains.
- Abstract(参考訳): オフライン強化学習(RL)は、アウト・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーに対して重要な課題に直面している。
Implicit Q-Learning (IQL)アルゴリズムは、サンプル内学習を達成するために期待できる回帰を採用し、OODアクションに関連するリスクを効果的に軽減する。
しかし、政策評価と密度に基づく政策改善手法における固定されたハイパーパラメータは、その全体的な効率を制限している。
本稿では,サポート制約で拡張されたプロジェクティブIQLアルゴリズムであるProj-IQLを提案する。
ポリシー評価フェーズでは、Proj-IQLは、サンプル内学習と予測回帰フレームワークを維持しながら、ベクトル投影によるマルチステップアプローチへのワンステップアプローチを一般化する。
ポリシー改善フェーズでは、Proj-IQLはポリシー評価アプローチとより整合したサポート制約を導入している。
さらに,Proj-IQLはモノトニックな政策改善を保証し,より厳格な行動基準を徐々に享受していることが理論的に証明されている。
Proj-IQLはD4RLベンチマーク、特に困難なナビゲーションドメインで最先端のパフォーマンスを実現している。
関連論文リスト
- Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。