論文の概要: Causal Reinforcement Learning using Observational and Interventional
Data
- arxiv url: http://arxiv.org/abs/2106.14421v1
- Date: Mon, 28 Jun 2021 06:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 23:38:13.538608
- Title: Causal Reinforcement Learning using Observational and Interventional
Data
- Title(参考訳): 観察・介入データを用いた因果強化学習
- Authors: Maxime Gasse, Damien Grasset, Guillaume Gaudron, Pierre-Yves Oudeyer
- Abstract要約: 環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。
学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
- 参考スコア(独自算出の注目度): 14.856472820492364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning efficiently a causal model of the environment is a key challenge of
model-based RL agents operating in POMDPs. We consider here a scenario where
the learning agent has the ability to collect online experiences through direct
interactions with the environment (interventional data), but has also access to
a large collection of offline experiences, obtained by observing another agent
interacting with the environment (observational data). A key ingredient, that
makes this situation non-trivial, is that we allow the observed agent to
interact with the environment based on hidden information, which is not
observed by the learning agent. We then ask the following questions: can the
online and offline experiences be safely combined for learning a causal model ?
And can we expect the offline experiences to improve the agent's performances ?
To answer these questions, we import ideas from the well-established causal
framework of do-calculus, and we express model-based reinforcement learning as
a causal inference problem. Then, we propose a general yet simple methodology
for leveraging offline data during learning. In a nutshell, the method relies
on learning a latent-based causal transition model that explains both the
interventional and observational regimes, and then using the recovered latent
variable to infer the standard POMDP transition model via deconfounding. We
prove our method is correct and efficient in the sense that it attains better
generalization guarantees due to the offline data (in the asymptotic case), and
we illustrate its effectiveness empirically on synthetic toy problems. Our
contribution aims at bridging the gap between the fields of reinforcement
learning and causality.
- Abstract(参考訳): 環境の因果モデルを効率的に学習することは、PMDPで動作するモデルベースRLエージェントの重要な課題である。
ここでは,学習エージェントが環境との直接インタラクション(干渉データ)を通じてオンライン体験を収集できるだけでなく,環境と相互作用する他のエージェント(観測データ)を観察して得られるオフライン体験の大規模なコレクションにもアクセスできるシナリオについて考察する。
この状況を非自明なものにしている重要な要素は、学習エージェントが観察しない隠れ情報に基づいて、観察されたエージェントが環境と対話できるようにすることである。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
そして、オフライン体験がエージェントのパフォーマンスを改善することは期待できますか?
これらの質問に答えるために,do-calculusの確立された因果フレームワークからアイデアをインポートし,モデルに基づく強化学習を因果推論問題として表現する。
そこで本研究では,学習中にオフラインデータを活用する方法を提案する。
簡単に言うと、この方法は、介入状態と観測状態の両方を説明する潜時ベースの因果遷移モデルを学習し、回復した潜時変数を使用してデコンウンディングを介して標準のPOMDP遷移モデルを推測する。
本手法は,オフラインデータ(漸近的な場合)によるより良い一般化保証を実現するという意味では,正確かつ効率的であることを証明し,その効果を人工玩具問題に対して実証的に示す。
我々の貢献は、強化学習の分野と因果関係のギャップを埋めることである。
関連論文リスト
- Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Learning by Doing: An Online Causal Reinforcement Learning Framework
with Causal-Aware Policy [40.33036146207819]
我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
論文 参考訳(メタデータ) (2024-02-07T14:09:34Z) - Causal Disentangled Variational Auto-Encoder for Preference
Understanding in Recommendation [50.93536377097659]
本稿では,コメンテータシステムにおける対話データから因果不整合表現を学習するためのCaD-VAE(Causal Disentangled Variational Auto-Encoder)を提案する。
この手法は構造因果モデルを用いて、潜在因子間の因果関係を記述する因果表現を生成する。
論文 参考訳(メタデータ) (2023-04-17T00:10:56Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T23:43:11Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Offline Learning for Planning: A Summary [0.0]
自律的なエージェントの訓練は、しばしば、環境との高価で安全でない試行錯誤の相互作用を必要とする。
さまざまなタスクを実行するインテリジェントエージェントの記録された経験を含むデータセットは、インターネット上でアクセス可能である。
本稿では,最先端のオフライン学習ベースラインの開発を動機とするアイデアを要約する。
論文 参考訳(メタデータ) (2020-10-05T11:41:11Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。