論文の概要: Provable Representation with Efficient Planning for Partially Observable
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.12244v1
- Date: Mon, 20 Nov 2023 23:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:46:45.329767
- Title: Provable Representation with Efficient Planning for Partially Observable
Reinforcement Learning
- Title(参考訳): 部分観測型強化学習のための効率的な計画付き確率表現
- Authors: Hongming Zhang, Tongzheng Ren, Chenjun Xiao, Dale Schuurmans, Bo Dai
- Abstract要約: 部分的に観察可能なマルコフ決定プロセスが導入された。
本稿では,この表現的視点を利用して,部分的な観察に基づいて,実際に学習可能な強化学習アルゴリズムのコヒーレントな設計枠組みを導出する。
提案アルゴリズムは,様々なベンチマークで部分的な観察を行い,最先端の性能を超えることができることを実証的に実証した。
- 参考スコア(独自算出の注目度): 80.11643679551042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world reinforcement learning problems, the state information is often
only partially observable, which breaks the basic assumption in Markov decision
processes, and thus, leads to inferior performances. Partially Observable
Markov Decision Processes have been introduced to explicitly take the issue
into account for learning, exploration, and planning, but presenting
significant computational and statistical challenges. To address these
difficulties, we exploit the representation view, which leads to a coherent
design framework for a practically tractable reinforcement learning algorithm
upon partial observations. We provide a theoretical analysis for justifying the
statistical efficiency of the proposed algorithm. We also empirically
demonstrate the proposed algorithm can surpass state-of-the-art performance
with partial observations across various benchmarks, therefore, pushing
reliable reinforcement learning towards more practical applications.
- Abstract(参考訳): 実世界の強化学習問題では、状態情報は部分的にのみ観測可能であり、マルコフ決定過程の基本的な仮定を破り、結果として性能が低下する。
部分的に観察可能なマルコフ決定プロセスは、この問題を学習、探索、計画に明示的に考慮するために導入されたが、重要な計算および統計上の課題を提示している。
これらの課題に対処するために,表現ビューを活用し,部分的観察を効果的に適用可能な強化学習アルゴリズムのためのコヒーレントな設計枠組みを提案する。
提案手法の統計的効率を正当化するための理論的解析を行う。
また,提案アルゴリズムは,様々なベンチマークに偏り部分的な観察を行うことで,最先端の性能を超えることができることを示す。
関連論文リスト
- Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations [1.0609815608017066]
本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
論文 参考訳(メタデータ) (2021-12-28T05:47:24Z) - RELAX: Representation Learning Explainability [10.831313203043514]
本稿では、帰属に基づく表現の説明のための最初のアプローチであるRELAXを提案する。
ReLAXは、入力とマスクアウトされた自身のバージョンの間の表現空間における類似性を測定することで表現を説明する。
我々はRELAXの理論的解釈を提供し、教師なし学習を用いて訓練された特徴抽出器を新規に解析する。
論文 参考訳(メタデータ) (2021-12-19T14:51:31Z) - MICo: Learning improved representations via sampling-based state
similarity for Markov decision processes [18.829939056796313]
マルコフ決定過程の状態空間上での新しい行動距離を示す。
我々は,この距離を深層強化学習エージェントの学習表現を効果的に形成する手段として用いることを実証する。
論文 参考訳(メタデータ) (2021-06-03T14:24:12Z) - Disambiguation of weak supervision with exponential convergence rates [88.99819200562784]
教師付き学習では、データは不完全で差別的な情報で注釈付けされる。
本稿では,ある入力から潜在的な対象のセットが与えられる弱い監督の事例である部分的ラベリングに焦点を当てる。
弱い監督から完全な監督を回復する実証的曖昧化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-04T18:14:32Z) - Functional Regularization for Representation Learning: A Unified
Theoretical Perspective [27.93916012334704]
教師なしおよび自己教師なしの学習アプローチは、下流予測タスクの表現を学習するための重要なツールとなっている。
本稿では、ラベルなしデータを用いて学習可能な関数を通して表現に正規化を付与するものとして、このようなアプローチがいくつか考えられる統一的な視点を示す。
本稿では,これらの手法のサンプル複雑性を分析するための識別的理論的枠組みを提案し,学習可能な正規化関数を実現するために(Balcan and Blum, 2010)の枠組みを一般化する。
論文 参考訳(メタデータ) (2020-08-06T04:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。