論文の概要: Supported Policy Optimization for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.06239v1
- Date: Sun, 13 Feb 2022 07:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 14:29:59.348811
- Title: Supported Policy Optimization for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための政策最適化支援
- Authors: Jialong Wu, Haixu Wu, Zihan Qiu, Jianmin Wang, Mingsheng Long
- Abstract要約: オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
- 参考スコア(独自算出の注目度): 74.1011309005488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy constraint methods to offline reinforcement learning (RL) typically
utilize parameterization or regularization that constrains the policy to
perform actions within the support set of the behavior policy. The elaborative
designs of parameterization methods usually intrude into the policy networks,
which may bring extra inference cost and cannot take full advantage of
well-established online methods. Regularization methods reduce the divergence
between the learned policy and the behavior policy, which may mismatch the
inherent density-based definition of support set thereby failing to avoid the
out-of-distribution actions effectively. This paper presents Supported Policy
OpTimization (SPOT), which is directly derived from the theoretical
formalization of the density-based support constraint. SPOT adopts a VAE-based
density estimator to explicitly model the support set of behavior policy and
presents a simple but effective density-based regularization term, which can be
plugged non-intrusively into off-the-shelf off-policy RL algorithms. On the
standard benchmarks for offline RL, SPOT substantially outperforms
state-of-the-art offline RL methods. Benefiting from the pluggable design, the
offline pretrained models from SPOT can also be applied to perform online
fine-tuning seamlessly.
- Abstract(参考訳): オフライン強化学習(RL)に対する政策制約手法は、通常、行動ポリシーのサポートセット内で行動を実行するためにポリシーを制約するパラメータ化または規則化を利用する。
パラメータ化手法の精巧な設計は、通常ポリシーネットワークに侵入し、追加の推論コストをもたらし、確立されたオンライン手法をフル活用できない可能性がある。
正規化手法は学習方針と行動方針の相違を減らし、これは固有の密度に基づくサポートセットの定義を誤る可能性があるため、アウト・オブ・ディストリビューション行為を効果的に回避できない。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)を提案する。
spotはvaeベースの密度推定器を採用し、サポートセットの振る舞いポリシーを明示的にモデル化し、単純だが効果的な密度ベースの正規化項を提示している。
オフラインRLの標準ベンチマークでは、SPOTは最先端のオフラインRLメソッドよりも大幅に優れている。
SPOTのオフライン事前訓練モデルもプラグイン可能な設計に適合し、オンラインの微調整をシームレスに行うことができる。
関連論文リスト
- CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning [19.533619091287676]
オフライン強化学習のための優先行動最適化拡散政策を提案する。
特に、表現的条件拡散モデルを用いて、行動ポリシーの多様な分布を表現する。
実験により,提案手法は従来のオフラインRL法と比較して,競争力や性能に優れることを示した。
論文 参考訳(メタデータ) (2024-05-29T03:19:59Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。