論文の概要: Provable Representation with Efficient Planning for Partially Observable
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.12244v1
- Date: Mon, 20 Nov 2023 23:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:46:45.329767
- Title: Provable Representation with Efficient Planning for Partially Observable
Reinforcement Learning
- Title(参考訳): 部分観測型強化学習のための効率的な計画付き確率表現
- Authors: Hongming Zhang, Tongzheng Ren, Chenjun Xiao, Dale Schuurmans, Bo Dai
- Abstract要約: 部分的に観察可能なマルコフ決定プロセスが導入された。
本稿では,この表現的視点を利用して,部分的な観察に基づいて,実際に学習可能な強化学習アルゴリズムのコヒーレントな設計枠組みを導出する。
提案アルゴリズムは,様々なベンチマークで部分的な観察を行い,最先端の性能を超えることができることを実証的に実証した。
- 参考スコア(独自算出の注目度): 80.11643679551042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world reinforcement learning problems, the state information is often
only partially observable, which breaks the basic assumption in Markov decision
processes, and thus, leads to inferior performances. Partially Observable
Markov Decision Processes have been introduced to explicitly take the issue
into account for learning, exploration, and planning, but presenting
significant computational and statistical challenges. To address these
difficulties, we exploit the representation view, which leads to a coherent
design framework for a practically tractable reinforcement learning algorithm
upon partial observations. We provide a theoretical analysis for justifying the
statistical efficiency of the proposed algorithm. We also empirically
demonstrate the proposed algorithm can surpass state-of-the-art performance
with partial observations across various benchmarks, therefore, pushing
reliable reinforcement learning towards more practical applications.
- Abstract(参考訳): 実世界の強化学習問題では、状態情報は部分的にのみ観測可能であり、マルコフ決定過程の基本的な仮定を破り、結果として性能が低下する。
部分的に観察可能なマルコフ決定プロセスは、この問題を学習、探索、計画に明示的に考慮するために導入されたが、重要な計算および統計上の課題を提示している。
これらの課題に対処するために,表現ビューを活用し,部分的観察を効果的に適用可能な強化学習アルゴリズムのためのコヒーレントな設計枠組みを提案する。
提案手法の統計的効率を正当化するための理論的解析を行う。
また,提案アルゴリズムは,様々なベンチマークに偏り部分的な観察を行うことで,最先端の性能を超えることができることを示す。
関連論文リスト
- BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Exogenous Matching: Learning Good Proposals for Tractable Counterfactual Estimation [1.9662978733004601]
本稿では, 抽出可能かつ効率的な対実表現推定のための重要サンプリング手法を提案する。
対物推定器の共通上限を最小化することにより、分散最小化問題を条件分布学習問題に変換する。
構造因果モデル (Structure Causal Models, SCM) の様々なタイプと設定による実験による理論的結果の検証と, 対実推定タスクにおける性能の実証を行った。
論文 参考訳(メタデータ) (2024-10-17T03:08:28Z) - On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - Generalization bound for estimating causal effects from observational
network data [25.055822137402746]
ネットワークシナリオにおける因果効果推定のための一般化法を導出する。1) 連立確率スコアに基づく再重み付けスキーマ,2) 積分確率メトリック(IPM)に基づく表現学習スキーマ。
そこで本研究では,表現学習で強化した関節適合度スコアに基づく重み付け回帰法を提案する。
論文 参考訳(メタデータ) (2023-08-08T03:14:34Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - RELAX: Representation Learning Explainability [10.831313203043514]
本稿では、帰属に基づく表現の説明のための最初のアプローチであるRELAXを提案する。
ReLAXは、入力とマスクアウトされた自身のバージョンの間の表現空間における類似性を測定することで表現を説明する。
我々はRELAXの理論的解釈を提供し、教師なし学習を用いて訓練された特徴抽出器を新規に解析する。
論文 参考訳(メタデータ) (2021-12-19T14:51:31Z) - Functional Regularization for Representation Learning: A Unified
Theoretical Perspective [27.93916012334704]
教師なしおよび自己教師なしの学習アプローチは、下流予測タスクの表現を学習するための重要なツールとなっている。
本稿では、ラベルなしデータを用いて学習可能な関数を通して表現に正規化を付与するものとして、このようなアプローチがいくつか考えられる統一的な視点を示す。
本稿では,これらの手法のサンプル複雑性を分析するための識別的理論的枠組みを提案し,学習可能な正規化関数を実現するために(Balcan and Blum, 2010)の枠組みを一般化する。
論文 参考訳(メタデータ) (2020-08-06T04:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。