論文の概要: Learning Markov State Abstractions for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.04379v4
- Date: Fri, 15 Mar 2024 00:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 08:10:52.911678
- Title: Learning Markov State Abstractions for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のためのマルコフ状態抽象化の学習
- Authors: Cameron Allen, Neev Parikh, Omer Gottesman, George Konidaris,
- Abstract要約: 本稿では,マルコフの抽象状態表現を学習するのに十分であることを示す。
次に、逆モデル推定と時間的コントラスト学習を組み合わせた実践的な訓練手順について述べる。
提案手法は,ドメインの基盤構造を捉える表現を学習し,サンプル効率を向上させる。
- 参考スコア(独自算出の注目度): 17.34529517221924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental assumption of reinforcement learning in Markov decision processes (MDPs) is that the relevant decision process is, in fact, Markov. However, when MDPs have rich observations, agents typically learn by way of an abstract state representation, and such representations are not guaranteed to preserve the Markov property. We introduce a novel set of conditions and prove that they are sufficient for learning a Markov abstract state representation. We then describe a practical training procedure that combines inverse model estimation and temporal contrastive learning to learn an abstraction that approximately satisfies these conditions. Our novel training objective is compatible with both online and offline training: it does not require a reward signal, but agents can capitalize on reward information when available. We empirically evaluate our approach on a visual gridworld domain and a set of continuous control benchmarks. Our approach learns representations that capture the underlying structure of the domain and lead to improved sample efficiency over state-of-the-art deep reinforcement learning with visual features -- often matching or exceeding the performance achieved with hand-designed compact state information.
- Abstract(参考訳): マルコフ決定過程(MDPs)における強化学習の基本的な前提は、関連する決定過程が実際にマルコフであるということである。
しかし、MDPが豊富な観測値を持つ場合、エージェントは通常抽象状態表現によって学習し、そのような表現はマルコフ特性を保存することが保証されない。
本稿では,マルコフの抽象状態表現を学習するのに十分であることを示す。
次に、逆モデル推定と時間的コントラスト学習を組み合わせて、これらの条件をほぼ満足する抽象化を学ぶための実践的な訓練手順について述べる。
我々の新しい訓練目的はオンライントレーニングとオフライントレーニングの両方と互換性があり、報酬信号を必要としないが、エージェントは報酬情報を利用することができる。
視覚グリッドワールドドメインと連続制御ベンチマークのセットに対する我々のアプローチを実証的に評価する。
我々の手法は、ドメインの基盤となる構造を捉える表現を学び、視覚的特徴を持つ最先端の深層強化学習よりもサンプル効率を向上させる。
関連論文リスト
- Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Sequential Knockoffs for Variable Selection in Reinforcement Learning [19.925653053430395]
マルコフ決定過程(MDP)における十分最小状態の概念を導入する。
本研究では,高次元複素非線形力学を持つシステムにおいて,最小限の十分状態を推定するSequEntial Knockoffs (SEEK) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-24T21:39:06Z) - Learning Symbolic Representations for Reinforcement Learning of
Non-Markovian Behavior [23.20013012953065]
我々は、状態-作用履歴の学習自動化を支援する有用な状態抽象化を自動的に発見する方法を示す。
その結果、最先端のRLよりもはるかに少ない環境サンプルで最適なポリシーを学習できるエンドツーエンドのアルゴリズムが得られた。
論文 参考訳(メタデータ) (2023-01-08T00:47:19Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - State Representation Learning for Goal-Conditioned Reinforcement
Learning [9.162936410696407]
本稿では,報酬のないマルコフ決定過程に対する新しい状態表現を提案する。
自己監督的な方法で、組込み状態のペア間の埋め込み空間は、それらの間の遷移に必要な最小のアクション数に対応する。
我々は、この表現がどのようにしてゴール条件付きポリシーを学ぶことができるかを示す。
論文 参考訳(メタデータ) (2022-05-04T09:20:09Z) - Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文 参考訳(メタデータ) (2022-04-29T16:53:00Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - MICo: Learning improved representations via sampling-based state
similarity for Markov decision processes [18.829939056796313]
マルコフ決定過程の状態空間上での新しい行動距離を示す。
我々は,この距離を深層強化学習エージェントの学習表現を効果的に形成する手段として用いることを実証する。
論文 参考訳(メタデータ) (2021-06-03T14:24:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。