論文の概要: Unifying Causal Reinforcement Learning: Survey, Taxonomy, Algorithms and Applications
- arxiv url: http://arxiv.org/abs/2512.18135v1
- Date: Fri, 19 Dec 2025 23:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.206245
- Title: Unifying Causal Reinforcement Learning: Survey, Taxonomy, Algorithms and Applications
- Title(参考訳): 因果強化学習の統合:調査・分類・アルゴリズム・応用
- Authors: Cristiano da Costa Cunha, Wei Liu, Tim French, Ajmal Mian,
- Abstract要約: 因果強化学習(CRL)は、因果関係を明示的にモデル化することによって、課題に対する有望な解決策を提供する。
我々は既存のアプローチを因果表現学習、反ファクトポリシー最適化、オフライン因果RL、因果伝達学習、因果説明可能性に分類する。
我々は、堅牢で、一般化可能で、解釈可能な人工知能システムを開発するためのCRLの可能性について、今後の研究指針を提供する。
- 参考スコア(独自算出の注目度): 35.74838344207327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating causal inference (CI) with reinforcement learning (RL) has emerged as a powerful paradigm to address critical limitations in classical RL, including low explainability, lack of robustness and generalization failures. Traditional RL techniques, which typically rely on correlation-driven decision-making, struggle when faced with distribution shifts, confounding variables, and dynamic environments. Causal reinforcement learning (CRL), leveraging the foundational principles of causal inference, offers promising solutions to these challenges by explicitly modeling cause-and-effect relationships. In this survey, we systematically review recent advancements at the intersection of causal inference and RL. We categorize existing approaches into causal representation learning, counterfactual policy optimization, offline causal RL, causal transfer learning, and causal explainability. Through this structured analysis, we identify prevailing challenges, highlight empirical successes in practical applications, and discuss open problems. Finally, we provide future research directions, underscoring the potential of CRL for developing robust, generalizable, and interpretable artificial intelligence systems.
- Abstract(参考訳): 因果推論(CI)と強化学習(RL)を統合することは、説明可能性の低さ、堅牢性の欠如、一般化失敗など、古典的RLの限界に対処する強力なパラダイムとして現れてきた。
従来のRLテクニックは、相関駆動による意思決定に依存しており、分散シフトや変数の相違、動的環境に直面すると苦労する。
因果推論の基本原理を活用する因果強化学習(CRL)は、因果関係を明示的にモデル化することによって、これらの課題に対する有望な解決策を提供する。
本調査では、因果推論とRLの交点における最近の進歩を体系的にレビューする。
我々は既存のアプローチを因果表現学習、反ファクトポリシー最適化、オフライン因果RL、因果伝達学習、因果説明可能性に分類する。
この構造化された分析を通して、一般的な課題を特定し、実践的な応用における経験的成功を強調し、オープンな問題について議論する。
最後に、我々は、堅牢で一般化可能で解釈可能な人工知能システムを開発するためのCRLの可能性について、今後の研究指針を提供する。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Learning Nonlinear Causal Reductions to Explain Reinforcement Learning Policies [50.30741668990102]
我々は、強化学習政策の行動を説明するための因果的視点を採っている。
我々はこれらの関係を説明する単純化された高レベルの因果関係モデルを学ぶ。
非線形因果モデルのクラスに対して、一意の解が存在することを証明する。
論文 参考訳(メタデータ) (2025-07-20T10:25:24Z) - Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。
我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文 参考訳(メタデータ) (2025-07-17T14:22:24Z) - Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [43.27239522837257]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Learning by Doing: An Online Causal Reinforcement Learning Framework with Causal-Aware Policy [38.86867078596718]
我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
論文 参考訳(メタデータ) (2024-02-07T14:09:34Z) - A Survey on Causal Reinforcement Learning [41.645270300009436]
本稿では、CRL(Causal Reinforcement Learning)の作業のレビュー、CRL手法のレビュー、RLへの因果性から潜在的な機能について検討する。
特に,既存のCRLアプローチを,因果関係に基づく情報が事前に与えられるか否かに応じて2つのカテゴリに分けた。
我々は、マルコフ決定プロセス(MDP)、部分観測マルコフ決定プロセス(POMDP)、マルチアーム帯域(MAB)、動的治療レジーム(DTR)など、様々なモデルの形式化の観点から、各カテゴリを解析する。
論文 参考訳(メタデータ) (2023-02-10T12:25:08Z) - Generalizing Goal-Conditioned Reinforcement Learning with Variational
Causal Reasoning [24.09547181095033]
Causal Graphは、オブジェクトとイベントの関係に基づいて構築された構造である。
2つのステップを交互に行う理論性能保証フレームワークを提案する。
我々の業績改善は因果発見、遷移モデリング、政策トレーニングの活発なサイクルに起因する。
論文 参考訳(メタデータ) (2022-07-19T05:31:16Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Causal Inference Q-Network: Toward Resilient Reinforcement Learning [57.96312207429202]
観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
論文 参考訳(メタデータ) (2021-02-18T23:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。