論文の概要: Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees
- arxiv url: http://arxiv.org/abs/2311.08384v1
- Date: Tue, 14 Nov 2023 18:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:46:47.750800
- Title: Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees
- Title(参考訳): 長期保証付きオフラインデータ強化オン・ポリシーグラディエント
- Authors: Yifei Zhou, Ayush Sekhari, Yuda Song, Wen Sun
- Abstract要約: 本稿では,オンラインアクター批判手法とオフラインデータを組み合わせたハイブリッドRLアルゴリズムを提案する。
当社のアプローチでは,オフラインデータ上でのオフライントレーニングの手順を,オンラインNPGフレームワークに統合する。
- 参考スコア(独自算出の注目度): 23.838354396418868
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hybrid RL is the setting where an RL agent has access to both offline data
and online data by interacting with the real-world environment. In this work,
we propose a new hybrid RL algorithm that combines an on-policy actor-critic
method with offline data. On-policy methods such as policy gradient and natural
policy gradient (NPG) have shown to be more robust to model misspecification,
though sometimes it may not be as sample efficient as methods that rely on
off-policy learning. On the other hand, offline methods that depend on
off-policy training often require strong assumptions in theory and are less
stable to train in practice. Our new approach integrates a procedure of
off-policy training on the offline data into an on-policy NPG framework. We
show that our approach, in theory, can obtain a best-of-both-worlds type of
result -- it achieves the state-of-art theoretical guarantees of offline RL
when offline RL-specific assumptions hold, while at the same time maintaining
the theoretical guarantees of on-policy NPG regardless of the offline RL
assumptions' validity. Experimentally, in challenging rich-observation
environments, we show that our approach outperforms a state-of-the-art hybrid
RL baseline which only relies on off-policy policy optimization, demonstrating
the empirical benefit of combining on-policy and off-policy learning. Our code
is publicly available at https://github.com/YifeiZhou02/HNPG.
- Abstract(参考訳): Hybrid RLは、RLエージェントが実環境と対話することでオフラインデータとオンラインデータの両方にアクセスする環境である。
本研究では,オンラインアクター批判手法とオフラインデータを組み合わせたハイブリッドRLアルゴリズムを提案する。
政策勾配や自然政策勾配(英語版)(npg)のようなオンポリシーの手法は、誤特定をモデル化するのにより堅牢であることが示されているが、時にはオフポリシー学習に依存する手法ほどサンプル効率が良くない場合もある。
一方、非政治的な訓練に依存するオフラインの手法は理論上強い仮定を必要とすることが多く、実際は訓練の安定性が低い。
新たなアプローチでは,オフラインデータに対するオフポリシートレーニングの手順をオンポリシーnpgフレームワークに統合する。
提案手法は, 理論上は, オフラインな RL 固有の仮定が成立すると, オフラインな RL の理論的保証が得られると同時に, オフラインな RL の仮定の妥当性に関わらず, オンラインな NPG の理論的保証を維持できることを示す。
実験により, リッチ・オブザーバリング環境において, 本手法は, 政策最適化にのみ依存する最先端のハイブリッドRLベースラインよりも優れており, オン・ポリティクスとオフ・ポリティクス・ラーニングを組み合わせた経験的メリットを示す。
私たちのコードはhttps://github.com/yifeizhou02/hnpgで公開しています。
関連論文リスト
- Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL [42.57662196581823]
オフ・ポリティクス強化学習(RL)は、多くの複雑な現実世界のタスクに取り組むことで顕著な成功を収めた。
既存のRLアルゴリズムの多くは、リプレイバッファ内の情報を最大限活用できない。
OBAC(Offline-Boosted Actor-Critic)は、モデルのないオンラインRLフレームワークで、優れたオフラインポリシーをエレガントに識別する。
論文 参考訳(メタデータ) (2024-05-28T18:38:46Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Behavior Proximal Policy Optimization [14.701955559885615]
オフライン強化学習(英語: offline reinforcement learning, RL)は、既存の非政治アクター批判的手法が不十分な課題である。
オンラインのオンライン政治アルゴリズムは、自然にオフラインのRLを解くことができる。
本稿では,制約や正規化を伴わずにオフラインのRLを解消する振舞いプロキシポリシー最適化(BPPO)を提案する。
論文 参考訳(メタデータ) (2023-02-22T11:49:12Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - A Policy-Guided Imitation Approach for Offline Reinforcement Learning [9.195775740684248]
政策誘導型オフラインRL(textttPOR)を紹介する。
textttPORは、オフラインRLの標準ベンチマークであるD4RLで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-10-15T15:54:28Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。