論文の概要: Towards Causal Model-Based Policy Optimization
- arxiv url: http://arxiv.org/abs/2503.09719v1
- Date: Wed, 12 Mar 2025 18:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:04.014875
- Title: Towards Causal Model-Based Policy Optimization
- Title(参考訳): 因果モデルに基づく政策最適化に向けて
- Authors: Alberto Caron, Vasilios Mavroudis, Chris Hicks,
- Abstract要約: 因果モデルに基づく政策最適化(C-MBPO)を紹介する。
C-MBPOは、因果学習をモデルベース強化学習パイプラインに統合する新しいフレームワークである。
我々は、C-MBPOが、動的に急激で非因果関係に影響を及ぼす分布シフトのクラスに対して堅牢であることを示す。
- 参考スコア(独自算出の注目度): 0.24578723416255752
- License:
- Abstract: Real-world decision-making problems are often marked by complex, uncertain dynamics that can shift or break under changing conditions. Traditional Model-Based Reinforcement Learning (MBRL) approaches learn predictive models of environment dynamics from queried trajectories and then use these models to simulate rollouts for policy optimization. However, such methods do not account for the underlying causal mechanisms that govern the environment, and thus inadvertently capture spurious correlations, making them sensitive to distributional shifts and limiting their ability to generalize. The same naturally holds for model-free approaches. In this work, we introduce Causal Model-Based Policy Optimization (C-MBPO), a novel framework that integrates causal learning into the MBRL pipeline to achieve more robust, explainable, and generalizable policy learning algorithms. Our approach centers on first inferring a Causal Markov Decision Process (C-MDP) by learning a local Structural Causal Model (SCM) of both the state and reward transition dynamics from trajectories gathered online. C-MDPs differ from classic MDPs in that we can decompose causal dependencies in the environment dynamics via specifying an associated Causal Bayesian Network. C-MDPs allow for targeted interventions and counterfactual reasoning, enabling the agent to distinguish between mere statistical correlations and causal relationships. The learned SCM is then used to simulate counterfactual on-policy transitions and rewards under hypothetical actions (or ``interventions"), thereby guiding policy optimization more effectively. The resulting policy learned by C-MBPO can be shown to be robust to a class of distributional shifts that affect spurious, non-causal relationships in the dynamics. We demonstrate this through some simple experiments involving near and far OOD dynamics drifts.
- Abstract(参考訳): 現実の意思決定問題は、しばしば、変化する条件の下でシフトしたり壊れたりする、複雑で不確実なダイナミクスによって特徴づけられる。
従来のモデルベース強化学習(MBRL)アプローチは、クエリされた軌道から環境力学の予測モデルを学習し、これらのモデルを使用してポリシー最適化のためのロールアウトをシミュレートする。
しかし、このような手法は環境を支配する根底にある因果関係を考慮せず、故意に急激な相関を捉え、分布シフトに敏感になり、一般化する能力を制限する。
同じことが、モデルフリーアプローチにも当てはまる。
本稿では、因果学習をMBRLパイプラインに統合し、より堅牢で説明可能な、一般化可能なポリシー学習アルゴリズムを実現する新しいフレームワークである因果モデルベースポリシー最適化(C-MBPO)を紹介する。
提案手法は,オンラインで収集した軌道からの状態および報酬遷移の局所的構造因果モデル(SCM)を学習し,まずC-MDP(Causal Markov Decision Process)を推定することに焦点を当てる。
C-MDPは従来のMDPと異なり、関連するCausal Bayesian Networkを指定することで、環境力学における因果依存性を分解できる。
C-MDPは標的となる介入と反ファクト推論を可能にし、エージェントは単なる統計的相関と因果関係を区別することができる。
学習されたSCMは、仮説的行動(または「介入」)の下で、対実的な政治上の遷移と報酬をシミュレートするために使用され、それによって政策最適化をより効果的に導く。
C-MBPOによって学習された結果のポリシーは、力学における急激で非因果関係に影響を及ぼす分布シフトのクラスに対して堅牢であることが示される。
我々は、近距離および遠距離のOODダイナミクスドリフトを含むいくつかの簡単な実験を通してこれを実証する。
関連論文リスト
- SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルに基づくオフライン強化学習は、事前コンパイルされたデータセットと学習環境モデルを使用してポリシーを訓練する。
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
本稿では,モデルに基づくオフライン強化学習(SAMBO-RL)について紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour
with Multi-Agent Reinforcement Learning [4.40301653518681]
エージェントベースモデル(ABM)は、従来の平衡解析と相容れない様々な実世界の現象をモデル化することを約束している。
マルチエージェント強化学習(MARL)の最近の進歩は、合理性の観点からこの問題に対処する方法を提供する。
MARLフレームワーク内で不均一な処理制約を持つエージェントを表現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-01T17:21:45Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Causal Disentangled Variational Auto-Encoder for Preference
Understanding in Recommendation [50.93536377097659]
本稿では,コメンテータシステムにおける対話データから因果不整合表現を学習するためのCaD-VAE(Causal Disentangled Variational Auto-Encoder)を提案する。
この手法は構造因果モデルを用いて、潜在因子間の因果関係を記述する因果表現を生成する。
論文 参考訳(メタデータ) (2023-04-17T00:10:56Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - Learning Robust Models Using The Principle of Independent Causal
Mechanisms [26.79262903241044]
ICMの原理から目的関数を導出する勾配学習フレームワークを提案する。
理論的、実験的に、このフレームワークで訓練されたニューラルネットワークは、環境間で不変な関係に重点を置いていることを示す。
論文 参考訳(メタデータ) (2020-10-14T15:38:01Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。