論文の概要: Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity
- arxiv url: http://arxiv.org/abs/2410.17904v1
- Date: Wed, 23 Oct 2024 14:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:57:35.252083
- Title: Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity
- Title(参考訳): 潜在ダイナミクスによる強化学習 : 統計的およびアルゴリズム的モジュール性に向けて
- Authors: Philip Amortila, Dylan J. Foster, Nan Jiang, Akshay Krishnamurthy, Zakaria Mhammedi,
- Abstract要約: 強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
- 参考スコア(独自算出の注目度): 51.40558987254471
- License:
- Abstract: Real-world applications of reinforcement learning often involve environments where agents operate on complex, high-dimensional observations, but the underlying (''latent'') dynamics are comparatively simple. However, outside of restrictive settings such as small latent spaces, the fundamental statistical requirements and algorithmic principles for reinforcement learning under latent dynamics are poorly understood. This paper addresses the question of reinforcement learning under $\textit{general}$ latent dynamics from a statistical and algorithmic perspective. On the statistical side, our main negative result shows that most well-studied settings for reinforcement learning with function approximation become intractable when composed with rich observations; we complement this with a positive result, identifying latent pushforward coverability as a general condition that enables statistical tractability. Algorithmically, we develop provably efficient observable-to-latent reductions -- that is, reductions that transform an arbitrary algorithm for the latent MDP into an algorithm that can operate on rich observations -- in two settings: one where the agent has access to hindsight observations of the latent dynamics [LADZ23], and one where the agent can estimate self-predictive latent models [SAGHCB20]. Together, our results serve as a first step toward a unified statistical and algorithmic theory for reinforcement learning under latent dynamics.
- Abstract(参考訳): 強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多いが、基礎となる("latent'')ダイナミクスは比較的単純である。
しかし、小さな潜伏空間のような制限的な設定以外では、潜伏力学の下での強化学習の基本的な統計的要件とアルゴリズム的原理は理解されていない。
本稿では,統計的・アルゴリズム的な観点から,$\textit{ general}$ latent dynamicsの下での強化学習の問題に対処する。
統計学的には,機能近似を用いた強化学習の最もよく研究された設定は,リッチな観測で構成した場合に難易度が向上することを示し,統計的トラクタビリティを許容する一般的な条件として潜時プッシュフォワード被覆性を特定することで,これを肯定的な結果に補完する。
アルゴリズムでは, エージェントが潜時力学 [LADZ23] の後方視観測にアクセスできる場合と, エージェントが自己予測潜時モデル [SAGHCB20] を推定できる場合の2つの設定で, 潜時MDPの任意のアルゴリズムをリッチな観測で動作可能なアルゴリズムに変換する。
この結果と合わせて、潜在力学の下での強化学習のための統一統計およびアルゴリズム理論への第一歩として機能する。
関連論文リスト
- Rich-Observation Reinforcement Learning with Continuous Latent Dynamics [43.84391209459658]
本稿では,高次元観測に基づく制御を行うRichCLD(Rich-Observation RL with Continuous Latent Dynamics)を提案する。
我々の主な貢献は、統計的かつ計算学的に効率的であるこの設定のための新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-29T17:02:49Z) - Active Learning of Dynamics Using Prior Domain Knowledge in the Sampling Process [18.406992961818368]
本稿では,事前知識をサンプリングプロセスに明示的に組み込むことで,側面情報を活用する動的学習のための能動的学習アルゴリズムを提案する。
提案アルゴリズムは,観測データと側情報から導出される力学の非完全先行モデルとの間に高い経験的差を示す領域への探索を導く。
我々は,我々の能動学習アルゴリズムが,最大予測分散に対する明確な収束率を提供することで,基礎となる力学の一貫性のある推定値が得られることを厳密に証明する。
論文 参考訳(メタデータ) (2024-03-25T22:20:45Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。