論文の概要: CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.09207v1
- Date: Mon, 09 Feb 2026 21:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.251712
- Title: CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning
- Title(参考訳): CausalGDP:強化学習のための因果誘導拡散政策
- Authors: Xiaofeng Xiao, Xiao Hu, Yang Ye, Xubo Yue,
- Abstract要約: Causality-guided Diffusion Policy (CausalGDP)は、因果推論を拡散に基づくRLに統合する統合フレームワークである。
CausalGDPは、最先端の拡散ベースおよびオフラインRLメソッドよりも、競争力や優れたパフォーマンスを一貫して達成する。
- 参考スコア(独自算出の注目度): 7.644888449045426
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement learning (RL) has achieved remarkable success in a wide range of sequential decision-making problems. Recent diffusion-based policies further improve RL by modeling complex, high-dimensional action distributions. However, existing diffusion policies primarily rely on statistical associations and fail to explicitly account for causal relationships among states, actions, and rewards, limiting their ability to identify which action components truly cause high returns. In this paper, we propose Causality-guided Diffusion Policy (CausalGDP), a unified framework that integrates causal reasoning into diffusion-based RL. CausalGDP first learns a base diffusion policy and an initial causal dynamical model from offline data, capturing causal dependencies among states, actions, and rewards. During real-time interaction, the causal information is continuously updated and incorporated as a guidance signal to steer the diffusion process toward actions that causally influence future states and rewards. By explicitly considering causality beyond association, CausalGDP focuses policy optimization on action components that genuinely drive performance improvements. Experimental results demonstrate that CausalGDP consistently achieves competitive or superior performance over state-of-the-art diffusion-based and offline RL methods, especially in complex, high-dimensional control tasks.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は、様々な連続的な意思決定問題において顕著な成功を収めている。
最近の拡散に基づく政策は、複雑な高次元の作用分布をモデル化することによってRLをさらに改善している。
しかし、既存の拡散政策は、主に統計的な協会に依存しており、国家、行動、報酬の間の因果関係を明示的に説明することができず、どのアクションコンポーネントが本当に高いリターンを引き起こすかを識別する能力を制限する。
本稿では、因果推論を拡散に基づくRLに統合する統合フレームワークCausalGDP(Causality-Guided Diffusion Policy)を提案する。
CausalGDPはまず、オフラインデータからベース拡散ポリシーと初期因果ダイナミクスモデルを学び、状態、行動、報酬間の因果依存性をキャプチャする。
リアルタイムのインタラクションの間、因果情報は継続的に更新され、将来の状態や報酬に因果的に影響を及ぼす行動に向けて拡散過程を制御するための誘導信号として組み込まれる。
因果関係を超えた因果関係を明示的に考慮することで、CausalGDPは、真にパフォーマンス改善を促進するアクションコンポーネントのポリシー最適化にフォーカスしている。
実験結果から、CausalGDPは、特に複雑で高次元の制御タスクにおいて、最先端拡散ベースおよびオフラインRL法よりも競争力や優れた性能を一貫して達成していることが示された。
関連論文リスト
- Diffusion Policies with Value-Conditional Optimization for Offline Reinforcement Learning [11.523827300607541]
本稿では,Deffusion Policy with Value-conditional Optimization (DIVO)を提案する。
DIVOは、効率的な政策改善を促進しつつ、高品質で広範囲に分布する状態-作用サンプルを生成する。
D4RLベンチマーク上でDIVOを評価し、最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2025-11-12T02:59:07Z) - Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning [22.333460316347264]
本稿では,拡散型ポリシーに適した行動規則化RLフレームワークであるBDPOを紹介する。
我々は,行動制約を尊重しながら最適なポリシーを生成する,効率的な2時間スケールアクタークリティカルなRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-07T09:30:35Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Learning by Doing: An Online Causal Reinforcement Learning Framework with Causal-Aware Policy [38.86867078596718]
我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
論文 参考訳(メタデータ) (2024-02-07T14:09:34Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。