論文の概要: Model-free Representation Learning and Exploration in Low-rank MDPs
- arxiv url: http://arxiv.org/abs/2102.07035v1
- Date: Sun, 14 Feb 2021 00:06:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:04:59.651769
- Title: Model-free Representation Learning and Exploration in Low-rank MDPs
- Title(参考訳): 低ランクMDPにおけるモデル自由表現学習と探索
- Authors: Aditya Modi, Jinglin Chen, Akshay Krishnamurthy, Nan Jiang, Alekh
Agarwal
- Abstract要約: 低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
- 参考スコア(独自算出の注目度): 64.72023662543363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The low rank MDP has emerged as an important model for studying
representation learning and exploration in reinforcement learning. With a known
representation, several model-free exploration strategies exist. In contrast,
all algorithms for the unknown representation setting are model-based, thereby
requiring the ability to model the full dynamics. In this work, we present the
first model-free representation learning algorithms for low rank MDPs. The key
algorithmic contribution is a new minimax representation learning objective,
for which we provide variants with differing tradeoffs in their statistical and
computational properties. We interleave this representation learning step with
an exploration strategy to cover the state space in a reward-free manner. The
resulting algorithms are provably sample efficient and can accommodate general
function approximation to scale to complex environments.
- Abstract(参考訳): 低位のMDPは、強化学習における表現学習と探索を研究する重要なモデルとして現れてきた。
既知の表現では、モデルフリーの探索戦略がいくつか存在する。
対照的に、未知表現設定のためのすべてのアルゴリズムはモデルベースであるため、完全なダイナミクスをモデル化する能力が必要となる。
本研究では,低ランクMPPのためのモデル自由表現学習アルゴリズムを提案する。
アルゴリズム上の重要な貢献は新しいminimax表現学習目標であり、統計的および計算的性質に異なるトレードオフを持つ変種を提供する。
我々は、この表現学習ステップを、報酬のない方法で状態空間をカバーする探索戦略でインターリーブする。
得られたアルゴリズムは、サンプル効率が高く、複雑な環境にスケールする一般的な関数近似に対応できます。
関連論文リスト
- Bi-level Latent Variable Model for Sample-Efficient Multi-Agent
Reinforcement Learning [44.45632323110452]
BiLL (Bi-Level Latent Variable Model-based Learning) は高次元入力から2レベル潜在変数モデルを学習する。
SMACおよびFlatland環境における複雑なマルチエージェントタスクに対するアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2023-04-12T17:46:23Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Provably Efficient Representation Learning in Low-rank Markov Decision
Processes [78.83808048270306]
低ランクマルコフ決定過程(MDP)の表現学習に関する研究
本稿では,ReLEXと呼ばれる効率の良いアルゴリズムを提案し,その表現を同時に学習し,探索を行う。
論文 参考訳(メタデータ) (2021-06-22T17:16:50Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Graph-based State Representation for Deep Reinforcement Learning [1.5901689240516976]
基礎となるマルコフ決定プロセス(MDP)がグラフを表現しているという事実を利用して、このトポロジ情報を有効状態表現学習に組み込むことができる。
近年のグラフ解析タスクにおけるノード表現の成功により,ノード表現学習手法が深部RLにおける基礎となるMDPのトポロジを効果的にエンコードする能力について検討した。
その結果,すべての埋め込み手法が,グリッドワールド環境の一般的な行列表現よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-29T05:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。