論文の概要: Provable RL with Exogenous Distractors via Multistep Inverse Dynamics
- arxiv url: http://arxiv.org/abs/2110.08847v1
- Date: Sun, 17 Oct 2021 15:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 17:11:07.724413
- Title: Provable RL with Exogenous Distractors via Multistep Inverse Dynamics
- Title(参考訳): 多段階逆ダイナミクスを用いた外因性ディトラクタを用いた確率RL
- Authors: Yonathan Efroni, Dipendra Misra, Akshay Krishnamurthy, Alekh Agarwal,
John Langford
- Abstract要約: 実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
- 参考スコア(独自算出の注目度): 85.52408288789164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world applications of reinforcement learning (RL) require the agent
to deal with high-dimensional observations such as those generated from a
megapixel camera. Prior work has addressed such problems with representation
learning, through which the agent can provably extract endogenous, latent state
information from raw observations and subsequently plan efficiently. However,
such approaches can fail in the presence of temporally correlated noise in the
observations, a phenomenon that is common in practice. We initiate the formal
study of latent state discovery in the presence of such exogenous noise sources
by proposing a new model, the Exogenous Block MDP (EX-BMDP), for rich
observation RL. We start by establishing several negative results, by
highlighting failure cases of prior representation learning based approaches.
Then, we introduce the Predictive Path Elimination (PPE) algorithm, that learns
a generalization of inverse dynamics and is provably sample and computationally
efficient in EX-BMDPs when the endogenous state dynamics are near
deterministic. The sample complexity of PPE depends polynomially on the size of
the latent endogenous state space while not directly depending on the size of
the observation space, nor the exogenous state space. We provide experiments on
challenging exploration problems which show that our approach works
empirically.
- Abstract(参考訳): 強化学習(RL)の現実的な応用の多くは、メガピクセルカメラから生成されたような高次元の観測をエージェントが処理する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出し、効率的に計画することができる。
しかし、そのような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
我々は,これらの外因性ノイズ源の存在下での潜伏状態発見の形式的研究を,リッチな観測RLのための新しいモデルであるEX-BMDPによって開始する。
まず、先行表現学習に基づくアプローチの失敗事例を強調することで、いくつかのネガティブな結果を確立します。
次に,逆ダイナミクスの一般化を学習し,内在的状態ダイナミクスが決定論的に近い場合,元bmdpsにおいて実証的かつ計算効率の高い予測経路除去(ppe)アルゴリズムを提案する。
PPEのサンプルの複雑さは、観測空間のサイズや外因性状態空間に直接依存せず、潜在内因性状態空間のサイズに多項式的に依存する。
我々のアプローチが実証的に機能することを示す、挑戦的な探索問題に関する実験を提供する。
関連論文リスト
- Overcoming the Curse of Dimensionality in Reinforcement Learning Through Approximate Factorization [15.898378661128334]
強化学習(RL)アルゴリズムは次元性の呪いに苦しむことが知られている。
本稿では,元のマルコフ決定過程(MDP)を,より小さく,独立に進化するMDPに大まかに分解することで,次元性の呪いを克服することを提案する。
提案手法は,両アルゴリズムに改良された複雑性保証を提供する。
論文 参考訳(メタデータ) (2024-11-12T07:08:00Z) - ODE-based Recurrent Model-free Reinforcement Learning for POMDPs [15.030970899252601]
我々は,POMDPを解くために,新しいODEベースのリカレントモデルとモデルレス強化学習フレームワークを組み合わせる。
様々なPO連続制御タスクとメタRLタスクにまたがる手法の有効性を実験的に実証した。
提案手法は,不規則にサンプリングされた時系列をモデル化するODEの能力のため,不規則な観測に対して頑健であることを示す。
論文 参考訳(メタデータ) (2023-09-25T12:13:56Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Causality-Based Multivariate Time Series Anomaly Detection [63.799474860969156]
我々は、因果的観点から異常検出問題を定式化し、多変量データを生成するための通常の因果的メカニズムに従わない事例として、異常を考察する。
次に、まずデータから因果構造を学習し、次に、あるインスタンスが局所因果機構に対して異常であるかどうかを推定する因果検出手法を提案する。
我々は、実世界のAIOpsアプリケーションに関するケーススタディと同様に、シミュレートされたデータセットとパブリックなデータセットの両方を用いて、私たちのアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-30T06:00:13Z) - MissDAG: Causal Discovery in the Presence of Missing Data with
Continuous Additive Noise Models [78.72682320019737]
不完全な観測データから因果発見を行うため,MissDAGと呼ばれる一般的な手法を開発した。
MissDAGは、期待-最大化の枠組みの下で観測の可視部分の期待される可能性を最大化する。
各種因果探索アルゴリズムを組み込んだMissDAGの柔軟性について,広範囲なシミュレーションと実データ実験により検証した。
論文 参考訳(メタデータ) (2022-05-27T09:59:46Z) - Causal Discovery from Conditionally Stationary Time Series [18.645887749731923]
State-Dependent Causal Inference (SDCI)は根底にある因果関係を回復することができる。
NBA選手の動きをモデル化した非因果RNNよりも改善した結果,本手法の可能性が示された。
論文 参考訳(メタデータ) (2021-10-12T18:12:57Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。