論文の概要: Policy Gradient Methods in the Presence of Symmetries and State
Abstractions
- arxiv url: http://arxiv.org/abs/2305.05666v2
- Date: Thu, 7 Mar 2024 17:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 18:29:14.549800
- Title: Policy Gradient Methods in the Presence of Symmetries and State
Abstractions
- Title(参考訳): 対称性と状態抽象化の観点からの政策勾配法
- Authors: Prakash Panangaden, Sahand Rezaei-Shoshtari, Rosie Zhao, David Meger,
Doina Precup
- Abstract要約: 高次元および複雑な問題に対する強化学習(RL)は、効率と一般化を改善するための抽象化に依存している。
連続制御設定における抽象化を研究し、マルコフ決定過程(MDP)の準同型の定義を連続状態と作用空間の設定に拡張する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムのファミリーを提案する。
- 参考スコア(独自算出の注目度): 46.66541516203923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) on high-dimensional and complex problems relies
on abstraction for improved efficiency and generalization. In this paper, we
study abstraction in the continuous-control setting, and extend the definition
of Markov decision process (MDP) homomorphisms to the setting of continuous
state and action spaces. We derive a policy gradient theorem on the abstract
MDP for both stochastic and deterministic policies. Our policy gradient results
allow for leveraging approximate symmetries of the environment for policy
optimization. Based on these theorems, we propose a family of actor-critic
algorithms that are able to learn the policy and the MDP homomorphism map
simultaneously, using the lax bisimulation metric. Finally, we introduce a
series of environments with continuous symmetries to further demonstrate the
ability of our algorithm for action abstraction in the presence of such
symmetries. We demonstrate the effectiveness of our method on our environments,
as well as on challenging visual control tasks from the DeepMind Control Suite.
Our method's ability to utilize MDP homomorphisms for representation learning
leads to improved performance, and the visualizations of the latent space
clearly demonstrate the structure of the learned abstraction.
- Abstract(参考訳): 高次元および複雑な問題に対する強化学習(RL)は、効率と一般化を改善するための抽象化に依存している。
本稿では,連続制御設定における抽象化について検討し,マルコフ決定過程(MDP)の準同型の定義を連続状態と作用空間の設定に拡張する。
確率的および決定論的政策の抽象的mdp上のポリシー勾配定理を導出する。
政策勾配の結果は,政策最適化のために環境の近似対称性を活用できる。
これらの定理に基づいて,laxの双シミュレーションメトリックを用いて,ポリシーとmdp準同型写像を同時に学習できるアクタ-クリティックアルゴリズムのファミリを提案する。
最後に、連続した対称性を持つ一連の環境を紹介し、そのような対称性の存在下での動作抽象化のためのアルゴリズムの能力をさらに実証する。
我々は,DeepMind Control Suiteの視覚的制御タスクだけでなく,我々の環境における手法の有効性を実証する。
提案手法では,表現学習にMDP準同型を利用できるため,性能が向上し,潜在空間の可視化が学習抽象の構造をはっきりと示している。
関連論文リスト
- Spatio-temporal Value Semantics-based Abstraction for Dense Deep Reinforcement Learning [1.4542411354617986]
Intelligent Cyber-Physical Systems (ICPS)は、CPS(Cyber-Physical System)の特殊な形態を表す。
CNNとDeep Reinforcement Learning (DRL)は、知覚、意思決定、制御を含む多面的なタスクを実行する。
DRLは意思決定プロセスにおける効率性、一般化能力、データの不足という観点で、課題に直面している。
本研究では空間時間値意味論に基づく革新的な抽象的モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T02:21:10Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Continuous MDP Homomorphisms and Homomorphic Policy Gradient [51.25171126424949]
MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T15:26:49Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。