論文の概要: Reinforcement Learning of Causal Variables Using Mediation Analysis
- arxiv url: http://arxiv.org/abs/2010.15745v2
- Date: Tue, 17 May 2022 10:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 23:30:27.643121
- Title: Reinforcement Learning of Causal Variables Using Mediation Analysis
- Title(参考訳): メディエーション分析を用いた因果変数の強化学習
- Authors: Tue Herlau, Rasmus Larsen
- Abstract要約: 本稿では,環境の因果グラフ構築に経験を用いた総合強化学習エージェントを構築することの問題点について考察する。
提案手法は,グリッド環境下で有効な因果グラフを学習し,因果情報を利用した場合の性能向上を図っている。
- 参考スコア(独自算出の注目度): 0.15229257192293197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many open problems in machine learning are intrinsically related to
causality, however, the use of causal analysis in machine learning is still in
its early stage. Within a general reinforcement learning setting, we consider
the problem of building a general reinforcement learning agent which uses
experience to construct a causal graph of the environment, and use this graph
to inform its policy. Our approach has three characteristics: First, we learn a
simple, coarse-grained causal graph, in which the variables reflect states at
many time instances, and the interventions happen at the level of policies,
rather than individual actions. Secondly, we use mediation analysis to obtain
an optimization target. By minimizing this target, we define the causal
variables. Thirdly, our approach relies on estimating conditional expectations
rather the familiar expected return from reinforcement learning, and we
therefore apply a generalization of Bellman's equations. We show the method can
learn a plausible causal graph in a grid-world environment, and the agent
obtains an improvement in performance when using the causally informed policy.
To our knowledge, this is the first attempt to apply causal analysis in a
reinforcement learning setting without strict restrictions on the number of
states. We have observed that mediation analysis provides a promising avenue
for transforming the problem of causal acquisition into one of cost-function
minimization, but importantly one which involves estimating conditional
expectations. This is a new challenge, and we think that causal reinforcement
learning will involve development methods suited for online estimation of such
conditional expectations. Finally, a benefit of our approach is the use of very
simple causal models, which are arguably a more natural model of human causal
understanding.
- Abstract(参考訳): 機械学習における多くのオープン問題は本質的に因果関係に関連しているが、機械学習における因果分析の使用はまだ初期段階にある。
一般的な強化学習環境の中では,環境の因果グラフ構築に経験を用いた総合強化学習エージェントを構築することの問題点を考察し,このグラフを用いてその方針を報告する。
まず、変数が複数のインスタンスで状態を反映し、個々のアクションではなくポリシーのレベルで介入が行われる単純な粗粒度の因果グラフを学びます。
次に,メディア分析を用いて最適化対象を得る。
この目標を最小化することで、因果変数を定義する。
第3に,本手法は強化学習からの期待値よりも条件付き期待値の推定に依存しているため,ベルマン方程式の一般化を適用する。
提案手法は,グリッド・ワールド環境において妥当な因果グラフを学習でき,エージェントは因果的インフォームド・ポリシーを用いた場合のパフォーマンス向上が得られることを示す。
我々の知る限りでは、国家数に厳しい制限を加えることなく強化学習環境で因果解析を適用する試みは、これが初めてである。
調停分析は,因果獲得の問題をコスト関数最小化の1つに転換する有望な手段を提供するが,条件付き期待値を推定することが重要である。
これは新たな課題であり、このような条件付き予測のオンライン評価に適した開発手法が因果強化学習にかかわると考えられる。
最後に、我々のアプローチの利点は、人間の因果的理解のより自然なモデルである非常に単純な因果的モデルを使用することである。
関連論文リスト
- Learning by Doing: An Online Causal Reinforcement Learning Framework
with Causal-Aware Policy [40.33036146207819]
我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
論文 参考訳(メタデータ) (2024-02-07T14:09:34Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Bayesian Learning for Dynamic Inference [2.2843885788439793]
いくつかの逐次推定問題では、推定される量の将来値は、その現在の値の推定に依存する。
本研究では,未知量生成モデルがランダムに描画されることを前提として,動的推論のためのベイズ学習問題を定式化する。
我々は、推論損失を最小限に抑えるために、オフラインとオンラインの両方で最適なベイズ学習ルールを導出する。
論文 参考訳(メタデータ) (2022-12-30T19:16:23Z) - A Meta-Reinforcement Learning Algorithm for Causal Discovery [3.4806267677524896]
因果構造は、モデルが純粋な相関に基づく推論を超えることを可能にする。
データから因果構造を見つけることは、計算の労力と精度の両方において大きな課題となる。
我々は,介入を学習することで因果発見を行うメタ強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-18T09:26:07Z) - Evaluation Methods and Measures for Causal Learning Algorithms [33.07234268724662]
我々は2つの基本的な因果推論タスクと因果認識機械学習タスクに焦点を当てる。
この調査は、公開可能なベンチマークの開発と、観察データによる因果学習評価のためのコンセンサス標準の策定の緊急性に先んじることを目指している。
論文 参考訳(メタデータ) (2022-02-07T00:24:34Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Systematic Evaluation of Causal Discovery in Visual Model Based
Reinforcement Learning [76.00395335702572]
AIと因果関係の中心的な目標は、抽象表現と因果構造を共同で発見することである。
因果誘導を研究するための既存の環境は、複雑なタスク固有の因果グラフを持つため、この目的には適していない。
本研究の目的は,高次変数の学習表現と因果構造の研究を促進することである。
論文 参考訳(メタデータ) (2021-07-02T05:44:56Z) - Constrained Learning with Non-Convex Losses [119.8736858597118]
学習は現代の情報処理の中核技術になっているが、バイアス、安全でない、偏見のあるソリューションにつながるという証拠はたくさんある。
論文 参考訳(メタデータ) (2021-03-08T23:10:33Z) - Towards Causal Representation Learning [96.110881654479]
機械学習とグラフィカル因果関係の2つの分野が生まれ、別々に発展した。
現在、他分野の進歩の恩恵を受けるために、クロスポリン化と両方の分野への関心が高まっている。
論文 参考訳(メタデータ) (2021-02-22T15:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。