論文の概要: Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL
- arxiv url: http://arxiv.org/abs/2304.05889v1
- Date: Wed, 12 Apr 2023 14:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:45:14.709769
- Title: Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL
- Title(参考訳): 多段階逆運動学による表現学習:リッチ観測RLの効率的かつ最適アプローチ
- Authors: Zakaria Mhammedi and Dylan J. Foster and Alexander Rakhlin
- Abstract要約: 既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
- 参考スコア(独自算出の注目度): 106.82295532402335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the design of sample-efficient algorithms for reinforcement learning
in the presence of rich, high-dimensional observations, formalized via the
Block MDP problem. Existing algorithms suffer from either 1) computational
intractability, 2) strong statistical assumptions that are not necessarily
satisfied in practice, or 3) suboptimal sample complexity. We address these
issues by providing the first computationally efficient algorithm that attains
rate-optimal sample complexity with respect to the desired accuracy level, with
minimal statistical assumptions. Our algorithm, MusIK, combines systematic
exploration with representation learning based on multi-step inverse
kinematics, a learning objective in which the aim is to predict the learner's
own action from the current observation and observations in the (potentially
distant) future. MusIK is simple and flexible, and can efficiently take
advantage of general-purpose function approximation. Our analysis leverages
several new techniques tailored to non-optimistic exploration algorithms, which
we anticipate will find broader use.
- Abstract(参考訳): 我々は,Block MDP問題を通じて定式化されたリッチで高次元の観測環境下での強化学習のためのサンプル効率アルゴリズムの設計について検討した。
既存のアルゴリズムはどちらかに苦しむ
1)計算の難易度
2 実用上必ずしも満たされない強固な統計的仮定、又は
3) 至適試料の複雑さ。
これらの問題に対処するために、最小の統計的仮定で、所望の精度レベルに対して、レート最適サンプル複雑性を実現する最初の計算効率の良いアルゴリズムを提供する。
本アルゴリズムは,多段階逆運動学に基づく系統的探索と表現学習を組み合わせることで,現在(潜在的に遠い)未来における観察と観察から学習者の行動を予測することを目的とした学習目標である。
MusIKは単純で柔軟性があり、汎用関数近似を効率的に活用することができる。
我々の分析は、最適化されていない探索アルゴリズムに適したいくつかの新しい手法を活用する。
関連論文リスト
- Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling [0.0]
本研究では、連続緩和による勾配に基づく更新と準量子アナリング(QQA)を組み合わせた別のアプローチを提案する。
数値実験により,本手法はiSCOと学習型解法に匹敵する性能を有する汎用解法であることが示された。
論文 参考訳(メタデータ) (2024-09-02T12:55:27Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Dual Optimization for Kolmogorov Model Learning Using Enhanced Gradient
Descent [8.714458129632158]
コルモゴロフモデル(コルモゴロフモデル、英: Kolmogorov model、KM)は、確率変数の集合の基本的な確率構造を学ぶための解釈可能で予測可能な表現手法である。
正規化双対最適化と拡張勾配降下法(GD)を併用した計算スケーラブルなKM学習アルゴリズムを提案する。
提案したKM学習アルゴリズムを用いた論理的関係マイニングの精度は80%以上である。
論文 参考訳(メタデータ) (2021-07-11T10:33:02Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。