論文の概要: D3HRL: A Distributed Hierarchical Reinforcement Learning Approach Based on Causal Discovery and Spurious Correlation Detection
- arxiv url: http://arxiv.org/abs/2505.01979v1
- Date: Sun, 04 May 2025 03:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.362191
- Title: D3HRL: A Distributed Hierarchical Reinforcement Learning Approach Based on Causal Discovery and Spurious Correlation Detection
- Title(参考訳): D3HRL:因果発見と偽相関検出に基づく分散型階層型強化学習手法
- Authors: Chenran Zhao, Dianxi Shi, Mengzhu Wang, Jianqiang Xia, Huanhuan Yang, Songchang Jin, Shaowu Yang, Chunping Qiu,
- Abstract要約: 我々はD3HRLと呼ばれる因果HRLアプローチを提案する。
第一に、D3HRLモデルは異なる時間間隔における因果関係として効果を遅らせた。
第二に、急激な相関を排除するために条件付き独立テストを採用している。
第3に、D3HRLは同定された真の因果関係に基づいて階層的な政策を構築し、訓練する。
- 参考スコア(独自算出の注目度): 7.1104295682315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Hierarchical Reinforcement Learning (HRL) algorithms excel in long-horizon sequential decision-making tasks but still face two challenges: delay effects and spurious correlations. To address them, we propose a causal HRL approach called D3HRL. First, D3HRL models delayed effects as causal relationships across different time spans and employs distributed causal discovery to learn these relationships. Second, it employs conditional independence testing to eliminate spurious correlations. Finally, D3HRL constructs and trains hierarchical policies based on the identified true causal relationships. These three steps are iteratively executed, gradually exploring the complete causal chain of the task. Experiments conducted in 2D-MineCraft and MiniGrid show that D3HRL demonstrates superior sensitivity to delay effects and accurately identifies causal relationships, leading to reliable decision-making in complex environments.
- Abstract(参考訳): 現在の階層強化学習(HRL)アルゴリズムは、長い水平なシーケンシャルな意思決定タスクで優れているが、それでも遅延効果と急激な相関という2つの課題に直面している。
そこで本研究では,D3HRLと呼ばれる因果的HRL手法を提案する。
まず、D3HRLモデルは、異なる時間にわたって因果関係としての影響を遅らせ、これらの関係を学習するために分散因果発見を用いる。
第二に、急激な相関を排除するために条件付き独立テストを採用している。
最後に、D3HRLは、同定された真の因果関係に基づいて階層的なポリシーを構築し、訓練する。
これら3つのステップは反復的に実行され、タスクの完全な因果連鎖を徐々に探索する。
2D-MineCraftとMiniGridの実験により、D3HRLは遅延効果に対して優れた感度を示し、因果関係を正確に同定し、複雑な環境における信頼性の高い意思決定につながることが示された。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Deep Causal Generative Models with Property Control [11.604321459670315]
我々は相関対応因果変分自動エンコーダ(C2VAE)と呼ばれる新しい深層生成フレームワークを提案する。
C2VAEは、非絡み付き潜在ベクトルを用いて特性間の相関関係と因果関係を同時に回復する。
論文 参考訳(メタデータ) (2024-05-25T13:07:27Z) - On the Identification of Temporally Causal Representation with Instantaneous Dependence [50.14432597910128]
時間的因果表現学習は時系列観測から潜在因果過程を特定することを目的としている。
ほとんどの方法は、潜在因果過程が即時関係を持たないという仮定を必要とする。
我々は,インスタントtextbfOus textbfLatent dynamics のための textbfIDentification フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T08:08:05Z) - Causal Temporal Regime Structure Learning [49.77103348208835]
本稿では,DAG(Directed Acyclic Graph)を並列に学習する新しい手法であるCASTORを提案する。
我々は我々の枠組みの中で体制とDAGの識別可能性を確立する。
実験により、CASTORは既存の因果発見モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2023-11-02T17:26:49Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - Temporal-Spatial Causal Interpretations for Vision-Based Reinforcement
Learning [45.77486829658102]
本稿では,エージェントの長期的行動を理解するために,時間空間因果解釈(TSCI)モデルを提案する。
TSCIモデルは,タスク関連時間空間情報を強調するために,高分解能かつ鋭い注意マスクを生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-06T13:24:17Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Causal Inference Q-Network: Toward Resilient Reinforcement Learning [57.96312207429202]
観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
論文 参考訳(メタデータ) (2021-02-18T23:50:20Z) - Causal discovery of linear non-Gaussian acyclic models in the presence
of latent confounders [6.1221613913018675]
本稿では,反復因果探索 (RCD) と呼ばれる因果関数モデルに基づく手法を提案する。
RCDは、少数の観測変数間で因果方向を推論し、その関係が潜伏した共同設立者の影響を受けているかどうかを判定する。
論文 参考訳(メタデータ) (2020-01-13T12:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。