論文の概要: Invariant Causal Prediction for Block MDPs
- arxiv url: http://arxiv.org/abs/2003.06016v2
- Date: Thu, 11 Jun 2020 18:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 13:10:11.924810
- Title: Invariant Causal Prediction for Block MDPs
- Title(参考訳): ブロックMDPの不変因果予測
- Authors: Amy Zhang, Clare Lyle, Shagun Sodhani, Angelos Filos, Marta
Kwiatkowska, Joelle Pineau, Yarin Gal, Doina Precup
- Abstract要約: 環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
- 参考スコア(独自算出の注目度): 106.63346115341862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization across environments is critical to the successful application
of reinforcement learning algorithms to real-world challenges. In this paper,
we consider the problem of learning abstractions that generalize in block MDPs,
families of environments with a shared latent state space and dynamics
structure over that latent space, but varying observations. We leverage tools
from causal inference to propose a method of invariant prediction to learn
model-irrelevance state abstractions (MISA) that generalize to novel
observations in the multi-environment setting. We prove that for certain
classes of environments, this approach outputs with high probability a state
abstraction corresponding to the causal feature set with respect to the return.
We further provide more general bounds on model error and generalization error
in the multi-environment setting, in the process showing a connection between
causal variable selection and the state abstraction framework for MDPs. We give
empirical evidence that our methods work in both linear and nonlinear settings,
attaining improved generalization over single- and multi-task baselines.
- Abstract(参考訳): 環境をまたがる一般化は、現実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,潜在状態空間を共有した環境群であるブロックmdpにおいて一般化される抽象概念の学習の問題と,その潜在空間上でのダイナミクス構造について考察する。
因果推論のツールを活用して,多環境環境での新しい観察に一般化したモデル非関係状態抽象化(misa)を学習するための不変予測手法を提案する。
本研究では, ある環境のクラスに対して, 帰納的特徴集合に対応する状態抽象化を高い確率で出力することを証明する。
さらに,マルチ環境設定におけるモデル誤差と一般化誤差について,因果変数選択とMDPの状態抽象化フレームワークの関連性を示すプロセスにおいて,より一般的なバウンダリを提供する。
提案手法は線形および非線形の両方の条件下で動作し,単一およびマルチタスクベースラインに対する一般化が向上したことを示す。
関連論文リスト
- Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Using Forwards-Backwards Models to Approximate MDP Homomorphisms [11.020094184644789]
離散作用空間における準同型を構成するための新しい手法を提案する。
環境力学の学習モデルを用いて、どの状態-作用ペアが同じ状態につながるかを推定する。
MinAtarでは,低サンプリング限界における値ベースオフ政治ベースラインに対して,ほぼ4倍の改善が報告されている。
論文 参考訳(メタデータ) (2022-09-14T00:38:12Z) - Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。
BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文 参考訳(メタデータ) (2022-08-22T09:07:02Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。