Fugu-MT 論文翻訳(概要): Model-free Representation Learning and Exploration in Low-rank MDPs

論文の概要: Model-free Representation Learning and Exploration in Low-rank MDPs

arxiv url: http://arxiv.org/abs/2102.07035v1
Date: Sun, 14 Feb 2021 00:06:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-16 16:04:59.651769
Title: Model-free Representation Learning and Exploration in Low-rank MDPs
Title（参考訳）: 低ランクMDPにおけるモデル自由表現学習と探索
Authors: Aditya Modi, Jinglin Chen, Akshay Krishnamurthy, Nan Jiang, Alekh Agarwal
Abstract要約: 低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。結果は複雑な環境にスケールする一般的な関数近似を収容できます。
参考スコア（独自算出の注目度）: 64.72023662543363
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The low rank MDP has emerged as an important model for studying representation learning and exploration in reinforcement learning. With a known representation, several model-free exploration strategies exist. In contrast, all algorithms for the unknown representation setting are model-based, thereby requiring the ability to model the full dynamics. In this work, we present the first model-free representation learning algorithms for low rank MDPs. The key algorithmic contribution is a new minimax representation learning objective, for which we provide variants with differing tradeoffs in their statistical and computational properties. We interleave this representation learning step with an exploration strategy to cover the state space in a reward-free manner. The resulting algorithms are provably sample efficient and can accommodate general function approximation to scale to complex environments.
Abstract（参考訳）: 低位のMDPは、強化学習における表現学習と探索を研究する重要なモデルとして現れてきた。既知の表現では、モデルフリーの探索戦略がいくつか存在する。対照的に、未知表現設定のためのすべてのアルゴリズムはモデルベースであるため、完全なダイナミクスをモデル化する能力が必要となる。本研究では,低ランクMPPのためのモデル自由表現学習アルゴリズムを提案する。アルゴリズム上の重要な貢献は新しいminimax表現学習目標であり、統計的および計算的性質に異なるトレードオフを持つ変種を提供する。我々は、この表現学習ステップを、報酬のない方法で状態空間をカバーする探索戦略でインターリーブする。得られたアルゴリズムは、サンプル効率が高く、複雑な環境にスケールする一般的な関数近似に対応できます。

関連論文リスト

USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-12T12:20:27Z)
On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文参考訳（メタデータ） (2024-10-11T18:02:46Z)
Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction [19.59151245929067]
エージェントにオブジェクト中心のマッピング(アイテムとその属性のセットを記述する)を与えることで、より効率的な学習が可能になるかどうかを検討する。この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化することで、階層的に最もよく解決されている。我々はこの手法を用いて、差別的な世界モデルを学ぶ完全モデルベースのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-21T17:59:31Z)
Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文参考訳（メタデータ） (2023-07-08T15:41:48Z)
Provably Efficient Representation Learning with Tractable Planning in Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文参考訳（メタデータ） (2023-06-21T16:04:03Z)
A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-30T17:59:16Z)
PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-07-12T17:57:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。