論文の概要: Efficient Reinforcement Learning from Partial Observability
- arxiv url: http://arxiv.org/abs/2311.12244v2
- Date: Sun, 11 Feb 2024 22:28:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 21:46:19.879453
- Title: Efficient Reinforcement Learning from Partial Observability
- Title(参考訳): 部分観測性からの効率的な強化学習
- Authors: Hongming Zhang, Tongzheng Ren, Chenjun Xiao, Dale Schuurmans, Bo Dai
- Abstract要約: ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破る。
我々は、部分的な観察から実践的な強化学習のためのコヒーレントな枠組みと抽出可能なアルゴリズムアプローチへと導く表現に基づく視点を開発する。
提案アルゴリズムは,様々なベンチマークで部分的な観察を行い,最先端の性能を超えることができることを実証的に実証した。
- 参考スコア(独自算出の注目度): 80.11643679551042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In most real-world reinforcement learning applications, state information is
only partially observable, which breaks the Markov decision process assumption
and leads to inferior performance for algorithms that conflate observations
with state. Partially Observable Markov Decision Processes (POMDPs), on the
other hand, provide a general framework that allows for partial observability
to be accounted for in learning, exploration and planning, but presents
significant computational and statistical challenges. To address these
difficulties, we develop a representation-based perspective that leads to a
coherent framework and tractable algorithmic approach for practical
reinforcement learning from partial observations. We provide a theoretical
analysis for justifying the statistical efficiency of the proposed algorithm,
and also empirically demonstrate the proposed algorithm can surpass
state-of-the-art performance with partial observations across various
benchmarks, advancing reliable reinforcement learning towards more practical
applications.
- Abstract(参考訳): ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破り、状態と観測を分割するアルゴリズムの性能は劣る。
一方、部分的に観測可能なマルコフ決定プロセス(POMDPs)は、学習、探索、計画において部分観測可能性を説明するための一般的なフレームワークを提供するが、重要な計算および統計的課題を示す。
これらの困難に対処するため,我々は,部分的観察から実践的な強化学習を行うためのコヒーレントな枠組みと扱いやすいアルゴリズム的アプローチをもたらす表現に基づく視点を開発する。
我々は,提案アルゴリズムの統計的効率を正当化するための理論的解析を行い,提案アルゴリズムが様々なベンチマークで部分的な観測を行い,より実用的な応用に向けて信頼性の高い強化学習を推進できることを示す。
関連論文リスト
- Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Exogenous Matching: Learning Good Proposals for Tractable Counterfactual Estimation [1.9662978733004601]
本稿では, 抽出可能かつ効率的な対実表現推定のための重要サンプリング手法を提案する。
対物推定器の共通上限を最小化することにより、分散最小化問題を条件分布学習問題に変換する。
構造因果モデル (Structure Causal Models, SCM) の様々なタイプと設定による実験による理論的結果の検証と, 対実推定タスクにおける性能の実証を行った。
論文 参考訳(メタデータ) (2024-10-17T03:08:28Z) - On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - Generalization bound for estimating causal effects from observational
network data [25.055822137402746]
ネットワークシナリオにおける因果効果推定のための一般化法を導出する。1) 連立確率スコアに基づく再重み付けスキーマ,2) 積分確率メトリック(IPM)に基づく表現学習スキーマ。
そこで本研究では,表現学習で強化した関節適合度スコアに基づく重み付け回帰法を提案する。
論文 参考訳(メタデータ) (2023-08-08T03:14:34Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - RELAX: Representation Learning Explainability [10.831313203043514]
本稿では、帰属に基づく表現の説明のための最初のアプローチであるRELAXを提案する。
ReLAXは、入力とマスクアウトされた自身のバージョンの間の表現空間における類似性を測定することで表現を説明する。
我々はRELAXの理論的解釈を提供し、教師なし学習を用いて訓練された特徴抽出器を新規に解析する。
論文 参考訳(メタデータ) (2021-12-19T14:51:31Z) - Functional Regularization for Representation Learning: A Unified
Theoretical Perspective [27.93916012334704]
教師なしおよび自己教師なしの学習アプローチは、下流予測タスクの表現を学習するための重要なツールとなっている。
本稿では、ラベルなしデータを用いて学習可能な関数を通して表現に正規化を付与するものとして、このようなアプローチがいくつか考えられる統一的な視点を示す。
本稿では,これらの手法のサンプル複雑性を分析するための識別的理論的枠組みを提案し,学習可能な正規化関数を実現するために(Balcan and Blum, 2010)の枠組みを一般化する。
論文 参考訳(メタデータ) (2020-08-06T04:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。