論文の概要: Learning by Doing: An Online Causal Reinforcement Learning Framework
with Causal-Aware Policy
- arxiv url: http://arxiv.org/abs/2402.04869v1
- Date: Wed, 7 Feb 2024 14:09:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 15:17:19.308430
- Title: Learning by Doing: An Online Causal Reinforcement Learning Framework
with Causal-Aware Policy
- Title(参考訳): 実践による学習--因果認識ポリシーを用いたオンライン因果強化学習フレームワーク
- Authors: Ruichu Cai, Siyang Huang, Jie Qiao, Wei Chen, Yan Zeng, Keli Zhang,
Fuchun Sun, Yang Yu, Zhifeng Hao
- Abstract要約: 我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
- 参考スコア(独自算出の注目度): 40.33036146207819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a key component to intuitive cognition and reasoning solutions in human
intelligence, causal knowledge provides great potential for reinforcement
learning (RL) agents' interpretability towards decision-making by helping
reduce the searching space. However, there is still a considerable gap in
discovering and incorporating causality into RL, which hinders the rapid
development of causal RL. In this paper, we consider explicitly modeling the
generation process of states with the causal graphical model, based on which we
augment the policy. We formulate the causal structure updating into the RL
interaction process with active intervention learning of the environment. To
optimize the derived objective, we propose a framework with theoretical
performance guarantees that alternates between two steps: using interventions
for causal structure learning during exploration and using the learned causal
structure for policy guidance during exploitation. Due to the lack of public
benchmarks that allow direct intervention in the state space, we design the
root cause localization task in our simulated fault alarm environment and then
empirically show the effectiveness and robustness of the proposed method
against state-of-the-art baselines. Theoretical analysis shows that our
performance improvement attributes to the virtuous cycle of causal-guided
policy learning and causal structure learning, which aligns with our
experimental results.
- Abstract(参考訳): ヒューマンインテリジェンスにおける直感的認知と推論ソリューションの鍵となる要素として、因果的知識は、探索空間を減らして意思決定に対する強化学習(RL)エージェントの解釈可能性に大きな可能性をもたらす。
しかし、因果RLの急速な発達を妨げるRLへの因果関係の発見と導入には、まだかなりのギャップがある。
本稿では,政策の強化に基づく因果グラフモデルを用いて,状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
提案手法は,探索中の因果構造学習の介入と,活用時の政策指導のための学習因果構造の利用の2つの段階を交互に行う理論的性能保証を伴う枠組みを提案する。
状態空間への直接的介入を可能にする公開ベンチマークが欠如しているため、シミュレーションされた故障警報環境における根本原因局所化タスクを設計し、提案手法の有効性とロバスト性を実証的に示す。
理論的分析から,我々の業績改善は因果誘導型政策学習と因果構造学習の活発なサイクルに起因していることが示唆された。
関連論文リスト
- Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Fine-Grained Causal Dynamics Learning with Quantization for Improving Robustness in Reinforcement Learning [26.34622544479565]
因果ダイナミクス学習は、強化学習における堅牢性を高めるための有望なアプローチである。
本稿では,微粒な因果構造を推定し,それらを予測に利用する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-06-05T13:13:58Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Causal Structure Learning with Recommendation System [46.90516308311924]
まず,その基盤となる因果構造を因果構造モデルとして定式化し,提案システムの現実的な作業機構を基盤とした一般的な因果構造学習フレームワークについて述べる。
次に,本フレームワークから学習目標を導出し,効率的な最適化のための拡張ラグランジアンソルバを提案する。
論文 参考訳(メタデータ) (2022-10-19T02:31:47Z) - Generalizing Goal-Conditioned Reinforcement Learning with Variational
Causal Reasoning [24.09547181095033]
Causal Graphは、オブジェクトとイベントの関係に基づいて構築された構造である。
2つのステップを交互に行う理論性能保証フレームワークを提案する。
我々の業績改善は因果発見、遷移モデリング、政策トレーニングの活発なサイクルに起因する。
論文 参考訳(メタデータ) (2022-07-19T05:31:16Z) - A Meta-Reinforcement Learning Algorithm for Causal Discovery [3.4806267677524896]
因果構造は、モデルが純粋な相関に基づく推論を超えることを可能にする。
データから因果構造を見つけることは、計算の労力と精度の両方において大きな課題となる。
我々は,介入を学習することで因果発見を行うメタ強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-18T09:26:07Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - Causal Reinforcement Learning using Observational and Interventional
Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。
学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文 参考訳(メタデータ) (2021-06-28T06:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。