論文の概要: Policy Constraint by Only Support Constraint for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.05207v1
- Date: Fri, 07 Mar 2025 07:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:23:43.956331
- Title: Policy Constraint by Only Support Constraint for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための支援制約のみによる政策制約
- Authors: Yunkai Gao, Jiaming Guo, Fan Wu, Rui Zhang,
- Abstract要約: 本稿では,行動政策支援における学習政策の総確率の最大化から導かれる,唯一の支援制約(OSC)について述べる。
OSCは、分散シフトに伴う課題を緩和し、政策制約の保守性を緩和し、パフォーマンスを著しく向上させる。
- 参考スコア(独自算出の注目度): 11.006709826558465
- License:
- Abstract: Offline reinforcement learning (RL) aims to optimize a policy by using pre-collected datasets, to maximize cumulative rewards. However, offline reinforcement learning suffers challenges due to the distributional shift between the learned and behavior policies, leading to errors when computing Q-values for out-of-distribution (OOD) actions. To mitigate this issue, policy constraint methods aim to constrain the learned policy's distribution with the distribution of the behavior policy or confine action selection within the support of the behavior policy. However, current policy constraint methods tend to exhibit excessive conservatism, hindering the policy from further surpassing the behavior policy's performance. In this work, we present Only Support Constraint (OSC) which is derived from maximizing the total probability of learned policy in the support of behavior policy, to address the conservatism of policy constraint. OSC presents a regularization term that only restricts policies to the support without imposing extra constraints on actions within the support. Additionally, to fully harness the performance of the new policy constraints, OSC utilizes a diffusion model to effectively characterize the support of behavior policies. Experimental evaluations across a variety of offline RL benchmarks demonstrate that OSC significantly enhances performance, alleviating the challenges associated with distributional shifts and mitigating conservatism of policy constraints. Code is available at https://github.com/MoreanP/OSC.
- Abstract(参考訳): オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用してポリシーを最適化し、累積報酬を最大化する。
しかし、オフライン強化学習は学習ポリシーと行動ポリシーの分散シフトによって困難に陥り、アウト・オブ・ディストリビューション(OOD)アクションのQ値を計算する際にエラーが発生する。
この問題を緩和するために、政策制約手法は、学習した政策の分布を行動政策の分布に制限すること、あるいは行動政策の支援の中で行動選択を限定することを目的としている。
しかし、現在の政策制約手法は過度の保守主義を示す傾向にあり、政策が行動政策のパフォーマンスをさらに上回るのを妨げる。
本稿では,政策制約の保守性に対処するために,行動政策の支援において学習政策の総確率を最大化することから導かれる,唯一の支援制約(OSC)を提案する。
OSCは、サポート内のアクションに余分な制約を課すことなく、ポリシーをサポートに限定する正規化用語を提示する。
さらに、OSCは、新しいポリシー制約の性能を完全に活用するために、拡散モデルを使用して、行動ポリシーのサポートを効果的に特徴づける。
様々なオフラインRLベンチマークによる実験的評価は、OSCが性能を大幅に向上し、分散シフトに伴う課題を緩和し、ポリシー制約の保守性を緩和することを示した。
コードはhttps://github.com/MoreanP/OSCで入手できる。
関連論文リスト
- Constraint-Adaptive Policy Switching for Offline Safe Reinforcement Learning [37.660801621012745]
オフライン安全な強化学習(OSRL)は、一定のトレーニングデータから報酬を最大化するための意思決定ポリシーを学習する。
本稿では,既存のオフラインRLアルゴリズムのラッパーフレームワークである制約適応ポリシースイッチング(CAPS)を導入する。
CAPSは既存の手法を一貫して上回り、OSRLの強力なラッパーベースのベースラインを確立する。
論文 参考訳(メタデータ) (2024-12-25T16:42:27Z) - SelfBC: Self Behavior Cloning for Offline Reinforcement Learning [14.573290839055316]
本研究では,これまでに学習したポリシーの指数的移動平均によって生成されたサンプルに対して,学習したポリシーを制約する新しい動的ポリシー制約を提案する。
我々のアプローチは、ほぼ単調に改善された参照ポリシーをもたらす。
論文 参考訳(メタデータ) (2024-08-04T23:23:48Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Policy Regularization with Dataset Constraint for Offline Reinforcement
Learning [27.868687398300658]
オフライン強化学習(Local Reinforcement Learning, RL)と呼ばれる,固定データセットから最善のポリシーを学習する問題を考察する。
本稿では、最も近い状態-作用対に対するポリシーの規則化がより効果的であることを発見し、データセット制約(PRDC)によるポリシーの規則化を提案する。
PRDCは、データセットから適切な振る舞いでポリシーをガイドし、与えられた状態に沿ってデータセットに現れないアクションを選択することができる。
論文 参考訳(メタデータ) (2023-06-11T03:02:10Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。