論文の概要: Causal Policy Learning in Reinforcement Learning: Backdoor-Adjusted Soft Actor-Critic
- arxiv url: http://arxiv.org/abs/2506.05445v1
- Date: Thu, 05 Jun 2025 13:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.169336
- Title: Causal Policy Learning in Reinforcement Learning: Backdoor-Adjusted Soft Actor-Critic
- Title(参考訳): 強化学習における因果政策学習--バックドア調整型ソフトアクター批判
- Authors: Thanh Vinh Vo, Young Lee, Haozhe Ma, Chien Lu, Tze-Yun Leong,
- Abstract要約: DoSACは、因果介入推定によって隠れたコンバウンディングを補正するSACアルゴリズムの原則拡張である。
DoSACは、真の共同創設者や因果ラベルへのアクセスを必要とせずに介入ポリシーを見積もる。
整合した設定の下では、堅牢性、一般化、およびポリシーの信頼性を改善したベースラインを上回っている。
- 参考スコア(独自算出の注目度): 8.216159592001038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hidden confounders that influence both states and actions can bias policy learning in reinforcement learning (RL), leading to suboptimal or non-generalizable behavior. Most RL algorithms ignore this issue, learning policies from observational trajectories based solely on statistical associations rather than causal effects. We propose DoSAC (Do-Calculus Soft Actor-Critic with Backdoor Adjustment), a principled extension of the SAC algorithm that corrects for hidden confounding via causal intervention estimation. DoSAC estimates the interventional policy $\pi(a | \mathrm{do}(s))$ using the backdoor criterion, without requiring access to true confounders or causal labels. To achieve this, we introduce a learnable Backdoor Reconstructor that infers pseudo-past variables (previous state and action) from the current state to enable backdoor adjustment from observational data. This module is integrated into a soft actor-critic framework to compute both the interventional policy and its entropy. Empirical results on continuous control benchmarks show that DoSAC outperforms baselines under confounded settings, with improved robustness, generalization, and policy reliability.
- Abstract(参考訳): 国家と行動の両方に影響を及ぼす隠れた共同設立者は、強化学習(RL)における政策学習をバイアスし、最適あるいは非汎用的な行動をもたらす。
ほとんどのRLアルゴリズムはこの問題を無視し、因果効果ではなく統計的関連性に基づく観測軌道からのポリシーを学習する。
本研究では,因果介入推定による隠れ共役を補正するSACアルゴリズムの原理拡張であるDoSAC(Do-Calculus Soft Actor-Critic with Backdoor Adjustment)を提案する。
DoSACは、真の共同創設者や因果ラベルへのアクセスを必要とせずに、バックドア基準を使用して介入ポリシー $\pi(a | \mathrm{do}(s))$を推定する。
そこで本研究では,現在の状態から擬似パスト変数(従来状態と動作)を推論して,観測データからバックドア調整を可能にする,学習可能なバックドアコンストラクタを提案する。
このモジュールは、介入ポリシーとエントロピーの両方を計算するソフトアクター批判フレームワークに統合されている。
継続的制御ベンチマークの実証的な結果から、DoSACは、堅牢性、一般化、ポリシーの信頼性を改善した、確立された設定の下でベースラインを上回ります。
関連論文リスト
- Rethinking Adversarial Inverse Reinforcement Learning: Policy Imitation, Transferable Reward Recovery and Algebraic Equilibrium Proof [7.000047187877612]
副次逆強化学習(AIRL)は模倣学習における基礎的なアプローチであるが、先行研究からの批判に直面している。
本研究では,ソフトアクター・クリティック(SAC)による組込みアルゴリズムの置き換えにより,ポリシー模倣の効率が著しく向上することを示す。
SACは実際、政策模倣の大幅な改善を示すが、転送可能な報酬回復の欠点をもたらす。
論文 参考訳(メタデータ) (2024-03-21T17:48:38Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Query-based Targeted Action-Space Adversarial Policies on Deep
Reinforcement Learning Agents [23.580682320064714]
本研究は、CPS文学における行動空間領域における標的攻撃(アクティベーション攻撃)を調査する。
対向目標に対する最適な摂動を生成するクエリベースのブラックボックス攻撃モデルが、別の強化学習問題として定式化可能であることを示す。
実験の結果,名目政策のアウトプットのみを観察する敵政策は,名目政策のインプットとアウトプットを観察する敵政策よりも強い攻撃を発生させることがわかった。
論文 参考訳(メタデータ) (2020-11-13T20:25:48Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。