論文の概要: Efficient Reinforcement Learning in Block MDPs: A Model-free
Representation Learning Approach
- arxiv url: http://arxiv.org/abs/2202.00063v2
- Date: Wed, 2 Feb 2022 19:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 11:40:07.924693
- Title: Efficient Reinforcement Learning in Block MDPs: A Model-free
Representation Learning Approach
- Title(参考訳): ブロックMDPにおける効率的な強化学習:モデルなし表現学習アプローチ
- Authors: Xuezhou Zhang, Yuda Song, Masatoshi Uehara, Mengdi Wang, Alekh
Agarwal, Wen Sun
- Abstract要約: ブロック構造力学を用いたマルコフ決定過程における効率的な強化学習アルゴリズムであるBRIEEを提案する。
BRIEEは、潜伏状態の発見、探索、搾取を相互にインターリーブし、ほぼ最適な政策を確実に学べる。
我々は、BRIEEが最先端のBlock MDPアルゴリズムであるHOMER RLや、リッチ・オブザーブレーションの組み合わせロック問題に挑戦する経験的ベースラインよりも、より標本効率が高いことを示す。
- 参考スコア(独自算出の注目度): 73.62265030773652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BRIEE (Block-structured Representation learning with Interleaved
Explore Exploit), an algorithm for efficient reinforcement learning in Markov
Decision Processes with block-structured dynamics (i.e., Block MDPs), where
rich observations are generated from a set of unknown latent states. BRIEE
interleaves latent states discovery, exploration, and exploitation together,
and can provably learn a near-optimal policy with sample complexity scaling
polynomially in the number of latent states, actions, and the time horizon,
with no dependence on the size of the potentially infinite observation space.
Empirically, we show that BRIEE is more sample efficient than the state-of-art
Block MDP algorithm HOMER and other empirical RL baselines on challenging
rich-observation combination lock problems that require deep exploration.
- Abstract(参考訳): 本稿では,ブロック構造を持つマルコフ決定過程(すなわちブロックmdps)における効率的な強化学習のためのアルゴリズムであるbriee(block-structured representation learning with interleaved explore exploit)を提案する。
ブライは潜伏状態の発見、探索、搾取を共に行い、潜在的に無限の観測空間の大きさに依存することなく、潜伏状態、作用、時間軸の数を多項式的にスケーリングするサンプル複雑性を用いて、最適に近い方針を証明できる。
実験により、BRIEEは最先端のBlock MDPアルゴリズムであるHOMERや他の実験的なRLベースラインよりも、深層探査を必要とするリッチ・オブザーバの組み合わせロック問題に挑戦する上で、より効率的であることが示されている。
関連論文リスト
- Block Sparse Bayesian Learning: A Diversified Scheme [16.61484758008309]
実世界のデータに広汎なブロック間隔現象を特徴付けるために, バラエティブロックスパース(Diversified Block Sparse)という小説を紹介した。
ブロック内分散およびブロック間相関行列の多様化を可能とすることにより、既存のブロックスパース学習手法の感度問題を事前に定義されたブロック情報に効果的に対処する。
論文 参考訳(メタデータ) (2024-02-07T08:18:06Z) - Intrinsic Language-Guided Exploration for Complex Long-Horizon Robotic
Manipulation Tasks [12.27904219271791]
現在の強化学習アルゴリズムは、スパースで複雑な環境で苦労している。
Intrinsically Guided Exploration from Large Language Models (IGE-LLMs) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T11:14:52Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。