論文の概要: Generalizing Consistency Policy to Visual RL with Prioritized Proximal Experience Regularization
- arxiv url: http://arxiv.org/abs/2410.00051v1
- Date: Tue, 29 Oct 2024 09:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 15:19:28.271687
- Title: Generalizing Consistency Policy to Visual RL with Prioritized Proximal Experience Regularization
- Title(参考訳): 優先的近位体験規則化による視覚的RLへの一貫性ポリシーの一般化
- Authors: Haoran Li, Zhennan Jiang, Yuhui Chen, Dongbin Zhao,
- Abstract要約: オンライン視覚強化学習における非定常分布とアクター・クリティカル・フレームワークが整合性ポリシーに及ぼす影響について検討する。
本稿では, 標本効率を向上させるために, 優先度付き近位体験正規化(CP3ER)を用いた整合性ポリシーを提案する。
CP3ERはDeepMindコントロールスイートとMeta-worldにまたがる21のタスクで、新しい最先端(SOTA)パフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 12.045972135237019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With high-dimensional state spaces, visual reinforcement learning (RL) faces significant challenges in exploitation and exploration, resulting in low sample efficiency and training stability. As a time-efficient diffusion model, although consistency models have been validated in online state-based RL, it is still an open question whether it can be extended to visual RL. In this paper, we investigate the impact of non-stationary distribution and the actor-critic framework on consistency policy in online RL, and find that consistency policy was unstable during the training, especially in visual RL with the high-dimensional state space. To this end, we suggest sample-based entropy regularization to stabilize the policy training, and propose a consistency policy with prioritized proximal experience regularization (CP3ER) to improve sample efficiency. CP3ER achieves new state-of-the-art (SOTA) performance in 21 tasks across DeepMind control suite and Meta-world. To our knowledge, CP3ER is the first method to apply diffusion/consistency models to visual RL and demonstrates the potential of consistency models in visual RL. More visualization results are available at https://jzndd.github.io/CP3ER-Page/.
- Abstract(参考訳): 高次元状態空間では、視覚強化学習(RL)は、エクスプロイトと探索において重大な課題に直面し、結果としてサンプル効率が低く、訓練安定性が低下する。
時間効率拡散モデルとして、オンライン状態ベースRLでは一貫性モデルが検証されているが、視覚的RLに拡張できるかどうかには疑問が残る。
本稿では,オンラインRLにおける非定常分布とアクタ批判フレームワークが整合性ポリシーに与える影響について検討し,特に高次元状態空間の視覚的RLにおいて,トレーニング中に整合性ポリシーが不安定であることを見出した。
この目的のために、政策訓練を安定させるためにサンプルベースのエントロピー正則化を提案し、標本効率を向上させるために、優先順位付けされた近位体験正則化(CP3ER)による整合性ポリシーを提案する。
CP3ERはDeepMindコントロールスイートとMeta-worldにまたがる21のタスクで、新しい最先端(SOTA)パフォーマンスを実現する。
我々の知る限り、CP3ERは視覚的RLに拡散/一貫性モデルを適用する最初の方法であり、視覚的RLにおける一貫性モデルの可能性を実証している。
さらなる視覚化結果はhttps://jzndd.github.io/CP3ER-Page/で公開されている。
関連論文リスト
- Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [1.631115063641726]
オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを導入し,PPOアルゴリズムを強化するフレームワークを提案する。
RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
論文 参考訳(メタデータ) (2024-09-02T19:10:32Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Consistency Models as a Rich and Efficient Policy Class for Reinforcement Learning [25.81859481634996]
拡散モデルのようなスコアベース生成モデルは、画像生成から強化学習(RL)へのマルチモーダルデータのモデリングに有効であることが証明された。
本稿では,3つの典型的なRL設定に対するアクタ批判型アルゴリズムを用いて,一貫性モデルを効率的かつ表現力のあるポリシー表現として適用することを提案する。
論文 参考訳(メタデータ) (2023-09-29T05:05:54Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Contrastive Variational Reinforcement Learning for Complex Observations [39.98639686743489]
本稿では,DRLにおける複雑な視覚的観察に取り組むモデルベース手法であるContrastive Variational Reinforcement Learning (CVRL)を提案する。
CVRLは、潜伏状態と観測者の相互情報を識別的に最大化することで、対照的な変動モデルを学習する。
標準的なMujocoタスク上で、最先端のモデルベースのDRLメソッドと同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-08-06T02:25:51Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。