論文の概要: Efficient Model-Free Exploration in Low-Rank MDPs
- arxiv url: http://arxiv.org/abs/2307.03997v2
- Date: Thu, 29 Feb 2024 15:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 19:01:56.647470
- Title: Efficient Model-Free Exploration in Low-Rank MDPs
- Title(参考訳): 低位mdpにおける効率的なモデルフリー探索
- Authors: Zakaria Mhammedi, Adam Block, Dylan J. Foster, Alexander Rakhlin
- Abstract要約: 低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
- 参考スコア(独自算出の注目度): 76.87340323826945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in reinforcement learning is to develop practical,
sample-efficient algorithms for exploration in high-dimensional domains where
generalization and function approximation is required. Low-Rank Markov Decision
Processes -- where transition probabilities admit a low-rank factorization
based on an unknown feature embedding -- offer a simple, yet expressive
framework for RL with function approximation, but existing algorithms are
either (1) computationally intractable, or (2) reliant upon restrictive
statistical assumptions such as latent variable structure, access to
model-based function approximation, or reachability. In this work, we propose
the first provably sample-efficient algorithm for exploration in Low-Rank MDPs
that is both computationally efficient and model-free, allowing for general
function approximation and requiring no additional structural assumptions. Our
algorithm, VoX, uses the notion of a barycentric spanner for the feature
embedding as an efficiently computable basis for exploration, performing
efficient barycentric spanner computation by interleaving representation
learning and policy optimization. Our analysis -- which is appealingly simple
and modular -- carefully combines several techniques, including a new approach
to error-tolerant barycentric spanner computation and an improved analysis of a
certain minimax representation learning objective found in prior work.
- Abstract(参考訳): 強化学習における大きな課題は、一般化と関数近似が必要な高次元領域での探索のための実践的でサンプル効率の良いアルゴリズムを開発することである。
低ランクマルコフ決定プロセス(遷移確率が未知の機能埋め込みに基づく低ランク分解を許容する)は、関数近似を伴うrlの単純だが表現力に富むフレームワークを提供するが、既存のアルゴリズムは(1)計算に難解、(2)潜在変数構造、モデルベースの関数近似へのアクセス、到達可能性といった制限付き統計的仮定に依存する。
本研究では,計算効率とモデル自由度を両立させ,一般関数近似を可能とし,付加的な構造仮定を必要としない,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムを提案する。
我々のアルゴリズムであるVoXは、特徴埋め込みを効率よく計算可能な基礎として利用し、表現学習とポリシー最適化をインターリーブすることで効率よくバリ中心スパンナー計算を行う。
我々の分析は、非常に単純でモジュラーなものであり、エラー耐性のバリ中心スパンナー計算に対する新しいアプローチや、以前の研究で見つかったある種のミニマックス表現学習目標の分析の改善など、いくつかの手法を慎重に組み合わせている。
関連論文リスト
- Minimax Optimal and Computationally Efficient Algorithms for Distributionally Robust Offline Reinforcement Learning [6.969949986864736]
分散ロバストなオフライン強化学習(RL)は、力学の不確実性をモデル化することによって環境摂動に対する堅牢な政策訓練を求める。
関数近似を実現するために,最小限の最適化と計算効率のアルゴリズムを提案する。
その結果、ロバストなオフラインRLの関数近似は、標準のオフラインRLと本質的に異なり、おそらくは難しいことが判明した。
論文 参考訳(メタデータ) (2024-03-14T17:55:10Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Dual Optimization for Kolmogorov Model Learning Using Enhanced Gradient
Descent [8.714458129632158]
コルモゴロフモデル(コルモゴロフモデル、英: Kolmogorov model、KM)は、確率変数の集合の基本的な確率構造を学ぶための解釈可能で予測可能な表現手法である。
正規化双対最適化と拡張勾配降下法(GD)を併用した計算スケーラブルなKM学習アルゴリズムを提案する。
提案したKM学習アルゴリズムを用いた論理的関係マイニングの精度は80%以上である。
論文 参考訳(メタデータ) (2021-07-11T10:33:02Z) - Escaping Poor Local Minima in Large Scale Robust Estimation [41.304283715031204]
ロバストなパラメータ推定のための2つの新しいアプローチを紹介します。
最初のアルゴリズムは、貧弱なミニマから逃れる強力な能力を持つ適応的なカーネルスケーリング戦略を使用します。
第2のアルゴリズムは、一般化メジャー化最小化フレームワークと半二次昇降式を組み合わせて、シンプルで効率的なソルバーを得る。
論文 参考訳(メタデータ) (2021-02-22T11:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。