論文の概要: Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions
- arxiv url: http://arxiv.org/abs/2002.11963v1
- Date: Thu, 27 Feb 2020 08:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 07:38:40.198820
- Title: Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions
- Title(参考訳): MDP準同型に対する平面近似:作用下の等分散
- Authors: Elise van der Pol, Thomas Kipf, Frans A. Oliehoek, Max Welling
- Abstract要約: 学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
- 参考スコア(独自算出の注目度): 72.30921397899684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work exploits action equivariance for representation learning in
reinforcement learning. Equivariance under actions states that transitions in
the input space are mirrored by equivalent transitions in latent space, while
the map and transition functions should also commute. We introduce a
contrastive loss function that enforces action equivariance on the learned
representations. We prove that when our loss is zero, we have a homomorphism of
a deterministic Markov Decision Process (MDP). Learning equivariant maps leads
to structured latent spaces, allowing us to build a model on which we plan
through value iteration. We show experimentally that for deterministic MDPs,
the optimal policy in the abstract MDP can be successfully lifted to the
original MDP. Moreover, the approach easily adapts to changes in the goal
states. Empirically, we show that in such MDPs, we obtain better
representations in fewer epochs compared to representation learning approaches
using reconstructions, while generalizing better to new goals than model-free
approaches.
- Abstract(参考訳): 本研究は強化学習における表現学習にアクション等価性を利用する。
作用による等分散は、入力空間の遷移は潜在空間における等価な遷移によってミラーされ、写像と遷移関数も可換であることを示す。
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失がゼロであるとき、決定論的マルコフ決定過程(MDP)の準同型が存在することを証明している。
等変写像の学習は構造化された潜在空間へとつながり、価値の反復を通じて計画するモデルを構築することができる。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
さらに、このアプローチは目標状態の変化に容易に適応できる。
実験により, モデルフリーの手法よりも新たな目標への一般化を図りながら, 再構成を用いた表現学習手法と比較して, より少ないエポックの表現が得られることを示した。
関連論文リスト
- PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは,ポイントマスク自動エンコーダのグローバルな特徴表現を強化する,自己教師型学習フレームワークである。
PseudoNeg-MAE は ModelNet40 と ScanObjectNN のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - Continuous MDP Homomorphisms and Homomorphic Policy Gradient [51.25171126424949]
MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T15:26:49Z) - Using Forwards-Backwards Models to Approximate MDP Homomorphisms [11.020094184644789]
離散作用空間における準同型を構成するための新しい手法を提案する。
環境力学の学習モデルを用いて、どの状態-作用ペアが同じ状態につながるかを推定する。
MinAtarでは,低サンプリング限界における値ベースオフ政治ベースラインに対して,ほぼ4倍の改善が報告されている。
論文 参考訳(メタデータ) (2022-09-14T00:38:12Z) - PAC Generalization via Invariant Representations [41.02828564338047]
有限標本集合における$epsilon$-approximate不変性の概念を考える。
PAC学習にインスパイアされ、有限サンプルのアウト・オブ・ディストリビューション一般化保証を得る。
この結果から, 介入部位が非次境界ノードの一定サイズの部分集合内にある場合に, 周囲次元でスケールしない境界を示す。
論文 参考訳(メタデータ) (2022-05-30T15:50:14Z) - Meta Learning MDPs with Linear Transition Models [22.508479528847634]
マルコフ決定過程 (MDP) におけるメタラーニングについて, 線形遷移モデルを用いて検討した。
本稿では,UC-Matrix RLアルゴリズムのバージョンであるBUC-MatrixRLを提案する。
BUC-Matrix RLは,タスクを個別に学習するのに比べて,高バイアス低分散タスク分布に対する伝達後悔の大幅な改善を提供する。
論文 参考訳(メタデータ) (2022-01-21T14:57:03Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z) - A Reinforcement Learning Approach for Sequential Spatial Transformer
Networks [6.585049648605185]
我々は、このタスクをマルコフ決定プロセス(MDP)として定式化し、このシーケンシャルな意思決定問題を解決するためにRLを使用する。
この方法では、サンプリングモジュールの微分可能性に縛られません。
MNISTデータセットとFashion-MNISTデータセットを用いて,本手法の有効性を検証するために,複数の実験を設計する。
論文 参考訳(メタデータ) (2021-06-27T17:41:17Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。