論文の概要: Why Online Reinforcement Learning is Causal
- arxiv url: http://arxiv.org/abs/2403.04221v1
- Date: Thu, 7 Mar 2024 04:49:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:01:55.506657
- Title: Why Online Reinforcement Learning is Causal
- Title(参考訳): オンライン強化学習が重要な理由
- Authors: Oliver Schulte, Pascal Poupart
- Abstract要約: 強化学習(RL)と因果モデリングは自然に相互に補完する。
本稿では、因果モデリングのメリットを期待できる強化学習設定について検討する。
- 参考スコア(独自算出の注目度): 37.32846024474085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) and causal modelling naturally complement each
other. The goal of causal modelling is to predict the effects of interventions
in an environment, while the goal of reinforcement learning is to select
interventions that maximize the rewards the agent receives from the
environment. Reinforcement learning includes the two most powerful sources of
information for estimating causal relationships: temporal ordering and the
ability to act on an environment. This paper examines which reinforcement
learning settings we can expect to benefit from causal modelling, and how. In
online learning, the agent has the ability to interact directly with their
environment, and learn from exploring it. Our main argument is that in online
learning, conditional probabilities are causal, and therefore offline RL is the
setting where causal learning has the most potential to make a difference.
Essentially, the reason is that when an agent learns from their {\em own}
experience, there are no unobserved confounders that influence both the agent's
own exploratory actions and the rewards they receive. Our paper formalizes this
argument. For offline RL, where an agent may and typically does learn from the
experience of {\em others}, we describe previous and new methods for leveraging
a causal model, including support for counterfactual queries.
- Abstract(参考訳): 強化学習(RL)と因果モデリングは自然に互いに補完する。
因果モデリングの目的は、環境における介入の効果を予測することであり、強化学習の目的は、エージェントが環境から受ける報酬を最大化する介入を選択することである。
強化学習には、時間的順序付けと環境に作用する能力という、因果関係を推定するための2つの最も強力な情報源が含まれる。
本稿では,因果モデリングのメリットを期待できる強化学習設定と方法を検討する。
オンライン学習では、エージェントは環境と直接対話し、探索から学ぶことができる。
オンライン学習においては、条件付き確率は因果的であり、従ってオフラインRLは因果的学習が最大の可能性を持つ環境である。
本質的には、エージェントが自身の経験から学ぶと、エージェント自身の探索行動と受け取った報酬の両方に影響を与える、観察されていない共同創設者がいないからである。
私たちの論文はこの議論を形式化する。
エージェントが"em other"の経験から学び、典型的に学習するオフラインrlでは、カウンターファクトクエリのサポートを含む因果モデルを活用するための、以前の新しい方法と新しい方法について説明する。
関連論文リスト
- Semifactual Explanations for Reinforcement Learning [1.5320737596132754]
強化学習(Reinforcement Learning、RL)は、エージェントが試行錯誤を通じて環境から学習する学習パラダイムである。
ディープ強化学習(DRL)アルゴリズムは、ニューラルネットワークを使用してエージェントのポリシーを表現し、その決定を解釈しにくくする。
DRLエージェントの動作を説明するには,ユーザの信頼を向上し,エンゲージメントを高め,実際のタスクとの統合を容易にする必要がある。
論文 参考訳(メタデータ) (2024-09-09T08:37:47Z) - Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Systematic Evaluation of Causal Discovery in Visual Model Based
Reinforcement Learning [76.00395335702572]
AIと因果関係の中心的な目標は、抽象表現と因果構造を共同で発見することである。
因果誘導を研究するための既存の環境は、複雑なタスク固有の因果グラフを持つため、この目的には適していない。
本研究の目的は,高次変数の学習表現と因果構造の研究を促進することである。
論文 参考訳(メタデータ) (2021-07-02T05:44:56Z) - Causal Reinforcement Learning using Observational and Interventional
Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。
学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文 参考訳(メタデータ) (2021-06-28T06:58:20Z) - Causality in Neural Networks -- An Extended Abstract [0.0]
因果推論は、人間が使用する主要な学習および説明ツールである。
因果性の概念を機械学習に導入することは、より良い学習と説明可能なモデルを提供するのに役立つ。
論文 参考訳(メタデータ) (2021-06-03T09:52:36Z) - To do or not to do: finding causal relations in smart homes [2.064612766965483]
本稿では,環境と観測データの混合実験から因果モデルを学ぶための新しい手法を提案する。
我々の手法の核心は、選択された介入の使用であり、特に、介入が不可能な変数を考慮に入れた学習である。
本手法をスマートホームシミュレーション,すなわち因果関係を知ることが説明可能なシステムへの道を開くユースケースに応用する。
論文 参考訳(メタデータ) (2021-05-20T22:36:04Z) - Causal Curiosity: RL Agents Discovering Self-supervised Experiments for
Causal Representation Learning [24.163616087447874]
心因性好奇心(em causal curiosity)は,本質的な報酬である。
エージェントが最適な行動列を学習できることを示す。
また、因果因子表現の知識は、より複雑なタスクにおいてゼロショット学習に役立つことを示す。
論文 参考訳(メタデータ) (2020-10-07T02:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。