論文の概要: Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit
Partial Observability
- arxiv url: http://arxiv.org/abs/2107.06277v1
- Date: Tue, 13 Jul 2021 17:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:59:33.708458
- Title: Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit
Partial Observability
- Title(参考訳): RLの一般化が難しい理由:てんかん性POMDPと難治部分可観測性
- Authors: Dibya Ghosh, Jad Rahme, Aviral Kumar, Amy Zhang, Ryan P. Adams, Sergey
Levine
- Abstract要約: 総合化は強化学習システムの展開における中心的な課題である。
限られた訓練条件から検査条件を特定できないように一般化することは、暗黙的な部分観察可能性をもたらすことを示す。
我々は、RLにおける一般化の問題を、部分的に観察されたマルコフ決定過程の解法として再考した。
- 参考スコア(独自算出の注目度): 92.95794652625496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization is a central challenge for the deployment of reinforcement
learning (RL) systems in the real world. In this paper, we show that the
sequential structure of the RL problem necessitates new approaches to
generalization beyond the well-studied techniques used in supervised learning.
While supervised learning methods can generalize effectively without explicitly
accounting for epistemic uncertainty, we show that, perhaps surprisingly, this
is not the case in RL. We show that generalization to unseen test conditions
from a limited number of training conditions induces implicit partial
observability, effectively turning even fully-observed MDPs into POMDPs.
Informed by this observation, we recast the problem of generalization in RL as
solving the induced partially observed Markov decision process, which we call
the epistemic POMDP. We demonstrate the failure modes of algorithms that do not
appropriately handle this partial observability, and suggest a simple
ensemble-based technique for approximately solving the partially observed
problem. Empirically, we demonstrate that our simple algorithm derived from the
epistemic POMDP achieves significant gains in generalization over current
methods on the Procgen benchmark suite.
- Abstract(参考訳): 一般化は、実世界における強化学習(RL)システムの展開における中心的な課題である。
本稿では,RL問題の逐次構造は,教師あり学習においてよく研究された手法を超えた,新たな一般化手法を必要とすることを示す。
教師付き学習法は, 先天的不確実性を明示的に考慮せずに効果的に一般化することができるが, 意外なことに, RLではそうではない。
限られた訓練条件から見つからないテスト条件への一般化は、暗黙的な部分観測可能性をもたらし、完全に観察されたMDPをPOMDPに変換する。
この観察から,我々は認識論的pomdpと呼ばれる部分的観測マルコフ決定過程の解法として,rlの一般化の問題を再演する。
この部分可観測性を適切に処理しないアルゴリズムの故障モードを実証し、部分可観測問題を近似解くための単純なアンサンブルに基づく手法を提案する。
実証的な結果として,疫学的なPOMDPから得られた簡単なアルゴリズムが,Procgenベンチマークスイートの現在の手法よりも大幅に向上することを示した。
関連論文リスト
- IMEX-Reg: Implicit-Explicit Regularization in the Function Space for Continual Learning [17.236861687708096]
連続学習(CL)は、これまで獲得した知識の破滅的な忘れが原因で、ディープニューラルネットワークの長年にわたる課題の1つである。
低バッファ状態下でのCLにおける経験リハーサルの一般化性能を改善するために,強い帰納バイアスを用いて人間がどのように学習するかに着想を得たIMEX-Regを提案する。
論文 参考訳(メタデータ) (2024-04-28T12:25:09Z) - Provable Representation with Efficient Planning for Partial Observable Reinforcement Learning [74.67655210734338]
ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破る。
我々は、部分的な観察から実践的な強化学習のためのコヒーレントな枠組みと抽出可能なアルゴリズムアプローチへと導く表現に基づく視点を開発する。
提案アルゴリズムは,様々なベンチマークで部分的な観察を行い,最先端の性能を超えることができることを実証的に実証した。
論文 参考訳(メタデータ) (2023-11-20T23:56:58Z) - A Unified Approach to Controlling Implicit Regularization via Mirror
Descent [18.536453909759544]
ミラー降下(MD)は勾配降下(GD)の顕著な一般化である
MDを効率的に実装することができ、適切な条件下での高速収束を享受できることを示す。
論文 参考訳(メタデータ) (2023-06-24T03:57:26Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Optimistic MLE -- A Generic Model-based Algorithm for Partially
Observable Sequential Decision Making [48.87943416098096]
本稿では,一般的な逐次決定のための簡単な学習アルゴリズムを提案する。
我々は,OMLEが極めて豊富な逐次的意思決定問題のクラスにおいて,ほぼ最適ポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-09-29T17:56:25Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Reinforcement Learning using Guided Observability [26.307025803058714]
強化学習を部分的な可観測性に対処するためのシンプルで効率的なアプローチを提案します。
トレーニングプロセス中の完全な可観測性から部分可観測性へのスムーズな移行は、高いパフォーマンスポリシをもたらします。
離散部分可観測性Markov決定プロセス(POMDP)ベンチマーク問題および連続部分可観測性MuJoCoおよびOpenAIジムタスクにおける包括的な評価は、PO-GRLがパフォーマンスを向上させることを示しています。
論文 参考訳(メタデータ) (2021-04-22T10:47:35Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。