論文の概要: Offline Reinforcement Learning with Soft Behavior Regularization
- arxiv url: http://arxiv.org/abs/2110.07395v1
- Date: Thu, 14 Oct 2021 14:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 14:43:51.772660
- Title: Offline Reinforcement Learning with Soft Behavior Regularization
- Title(参考訳): ソフト行動規則化によるオフライン強化学習
- Authors: Haoran Xu, Xianyuan Zhan, Jianxiong Li, Honglei Yin
- Abstract要約: 本研究では,オフライン設定で使用可能な新しいポリシー学習目標を導出する。
以前のアプローチで使用されていた状態非依存の正規化とは異なり、このテキストソフト正規化はポリシー逸脱のより自由な自由を可能にする。
実験結果から,SBACは連続的な制御ロコモーションと操作タスクのセットにおいて,最先端技術に適合または優れることが示された。
- 参考スコア(独自算出の注目度): 0.8937096931077437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most prior approaches to offline reinforcement learning (RL) utilize
\textit{behavior regularization}, typically augmenting existing off-policy
actor critic algorithms with a penalty measuring divergence between the policy
and the offline data. However, these approaches lack guaranteed performance
improvement over the behavior policy. In this work, we start from the
performance difference between the learned policy and the behavior policy, we
derive a new policy learning objective that can be used in the offline setting,
which corresponds to the advantage function value of the behavior policy,
multiplying by a state-marginal density ratio. We propose a practical way to
compute the density ratio and demonstrate its equivalence to a state-dependent
behavior regularization. Unlike state-independent regularization used in prior
approaches, this \textit{soft} regularization allows more freedom of policy
deviation at high confidence states, leading to better performance and
stability. We thus term our resulting algorithm Soft Behavior-regularized Actor
Critic (SBAC). Our experimental results show that SBAC matches or outperforms
the state-of-the-art on a set of continuous control locomotion and manipulation
tasks.
- Abstract(参考訳): オフライン強化学習 (RL) への以前のアプローチは、通常、既存のオフラインアクター批判アルゴリズムを、ポリシーとオフラインデータ間のばらつきを測定するペナルティで強化する \textit{behavior regularization} を利用する。
しかし、これらのアプローチは行動ポリシーよりも性能の向上が保証されていない。
本研究は,学習方針と行動方針との性能差からスタートし,行動方針の優位関数値に対応するオフライン設定で使用可能な新しい政策学習目標を,州平均密度比に乗じて導出する。
本研究では, 密度比を計算し, 状態依存行動正規化と等価性を示す実用的な方法を提案する。
以前のアプローチで使われる状態非依存の正規化とは異なり、この \textit{soft} 正規化は高信頼状態における政策逸脱のさらなる自由を可能にし、より良い性能と安定性をもたらす。
そこで我々は,本アルゴリズムをソフト行動規則化アクター批判 (SBAC) と呼ぶ。
実験結果から,SBACは連続的な制御ロコモーションと操作タスクのセットにおいて,最先端技術に適合または優れることが示された。
関連論文リスト
- CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Offline Reinforcement Learning with Fisher Divergence Critic
Regularization [41.085156836450466]
そこで我々は,学習した政策がデータに近づき続けることを奨励する代替的アプローチを提案する。
動作の正規化は、オフセット期間の適切な正規化に対応します。
本研究ではfisher-brcアルゴリズムにより,既存の最先端手法に対する性能向上と収束の高速化を両立する。
論文 参考訳(メタデータ) (2021-03-14T22:11:40Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。