論文の概要: Continuous MDP Homomorphisms and Homomorphic Policy Gradient
- arxiv url: http://arxiv.org/abs/2209.07364v1
- Date: Thu, 15 Sep 2022 15:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:17:49.360074
- Title: Continuous MDP Homomorphisms and Homomorphic Policy Gradient
- Title(参考訳): 連続MDP準同型と同型政策勾配
- Authors: Sahand Rezaei-Shoshtari, Rosie Zhao, Prakash Panangaden, David Meger,
Doina Precup
- Abstract要約: MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 51.25171126424949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstraction has been widely studied as a way to improve the efficiency and
generalization of reinforcement learning algorithms. In this paper, we study
abstraction in the continuous-control setting. We extend the definition of MDP
homomorphisms to encompass continuous actions in continuous state spaces. We
derive a policy gradient theorem on the abstract MDP, which allows us to
leverage approximate symmetries of the environment for policy optimization.
Based on this theorem, we propose an actor-critic algorithm that is able to
learn the policy and the MDP homomorphism map simultaneously, using the lax
bisimulation metric. We demonstrate the effectiveness of our method on
benchmark tasks in the DeepMind Control Suite. Our method's ability to utilize
MDP homomorphisms for representation learning leads to improved performance
when learning from pixel observations.
- Abstract(参考訳): 抽象化は強化学習アルゴリズムの効率と一般化を改善する方法として広く研究されている。
本稿では,連続制御における抽象化について検討する。
mdp準同型の定義を拡張し、連続状態空間内の連続作用を包含する。
我々は、政策最適化のために環境の近似対称性を活用できる抽象MDPのポリシー勾配定理を導出する。
この定理に基づいて,laxの双シミュレーションメトリックを用いて,ポリシーとmdp準同型写像を同時に学習できるアクタ-クリティックアルゴリズムを提案する。
本稿では,DeepMind Control Suiteのベンチマークタスクにおける手法の有効性を示す。
表現学習にMDPの準同型を活用できることは,画素観測から学習する際の性能向上につながる。
関連論文リスト
- On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Low-Rank MDPs with Continuous Action Spaces [42.695778474071254]
本研究では,このような手法を連続的な動作を伴う設定に拡張する問題について検討する。
アルゴリズムを変更せずに、動作が連続することを許された場合、同様のPAC境界が得られることを示す。
論文 参考訳(メタデータ) (2023-11-06T22:05:08Z) - Policy Gradient Methods in the Presence of Symmetries and State
Abstractions [46.66541516203923]
高次元および複雑な問題に対する強化学習(RL)は、効率と一般化を改善するための抽象化に依存している。
連続制御設定における抽象化を研究し、マルコフ決定過程(MDP)の準同型の定義を連続状態と作用空間の設定に拡張する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムのファミリーを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:59:10Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - BATS: Best Action Trajectory Stitching [22.75880303352508]
本稿では,データセットに新たな遷移を加えることで,ログデータ上に表形式のマルコフ決定プロセス(MDP)を形成するアルゴリズムを提案する。
この性質により、値関数の上限と下限を適切な距離の測度に設定できることを示す。
本稿では,提案アルゴリズムが生成したMDPの最適ポリシーを単純にクローンする動作が,この問題を回避する一例を示す。
論文 参考訳(メタデータ) (2022-04-26T01:48:32Z) - Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文 参考訳(メタデータ) (2020-02-27T08:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。