論文の概要: Hierarchical Reinforcement Learning with Targeted Causal Interventions
- arxiv url: http://arxiv.org/abs/2507.04373v1
- Date: Sun, 06 Jul 2025 12:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.146556
- Title: Hierarchical Reinforcement Learning with Targeted Causal Interventions
- Title(参考訳): 標的とした因果介入による階層的強化学習
- Authors: Sadegh Khorasani, Saber Salehkaleybar, Negar Kiyavash, Matthias Grossglauser,
- Abstract要約: 階層的強化学習(HRL)は、タスクをサブゴールの階層に分解することで、細かな報酬で長期強化学習タスクの効率を向上する。
サブゴナル構造を因果グラフとしてモデル化し,因果探索アルゴリズムを提案する。
発見された因果モデルを用いて,最終目標達成の重要性に基づいて,下位介入を優先する。
- 参考スコア(独自算出の注目度): 24.93050534953955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical reinforcement learning (HRL) improves the efficiency of long-horizon reinforcement-learning tasks with sparse rewards by decomposing the task into a hierarchy of subgoals. The main challenge of HRL is efficient discovery of the hierarchical structure among subgoals and utilizing this structure to achieve the final goal. We address this challenge by modeling the subgoal structure as a causal graph and propose a causal discovery algorithm to learn it. Additionally, rather than intervening on the subgoals at random during exploration, we harness the discovered causal model to prioritize subgoal interventions based on their importance in attaining the final goal. These targeted interventions result in a significantly more efficient policy in terms of the training cost. Unlike previous work on causal HRL, which lacked theoretical analysis, we provide a formal analysis of the problem. Specifically, for tree structures and, for a variant of Erd\H{o}s-R\'enyi random graphs, our approach results in remarkable improvements. Our experimental results on HRL tasks also illustrate that our proposed framework outperforms existing work in terms of training cost.
- Abstract(参考訳): 階層的強化学習(HRL)は、タスクをサブゴールの階層に分解することで、細かな報酬で長期強化学習タスクの効率を向上する。
HRLの主な課題は、サブゴール間の階層構造を効率的に発見し、最終目標を達成するためにこの構造を利用することである。
本稿では,この問題を因果グラフとしてモデル化し,それを学ぶための因果探索アルゴリズムを提案する。
さらに、探索中にランダムにサブゴールに介入するのではなく、発見された因果モデルを用いて、最終目標を達成することの重要性に基づいて、サブゴール介入を優先順位付けする。
これらの目標とする介入は、トレーニングコストの観点から、はるかに効率的な政策をもたらす。
理論的解析を欠いた従来の因果的HRLの研究とは異なり、この問題の形式的分析を提供する。
具体的には、木構造と、Erd\H{o}s-R\enyiランダムグラフの変種に対して、我々のアプローチは顕著な改善をもたらす。
HRLタスクに関する実験結果から,提案するフレームワークは,トレーニングコストの面で既存の作業よりも優れていたことが示唆された。
関連論文リスト
- Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning [5.274804664403783]
SSE(Strict Subgoal Execution)は、グラフベースの階層的RLフレームワークで、単一ステップのサブゴアル到達性を強制する。
SSE は既存の目標条件付き RL および階層型 RL アプローチを効率と成功率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-26T06:35:42Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - Learning by Doing: An Online Causal Reinforcement Learning Framework with Causal-Aware Policy [38.86867078596718]
我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
論文 参考訳(メタデータ) (2024-02-07T14:09:34Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Generalizing Goal-Conditioned Reinforcement Learning with Variational
Causal Reasoning [24.09547181095033]
Causal Graphは、オブジェクトとイベントの関係に基づいて構築された構造である。
2つのステップを交互に行う理論性能保証フレームワークを提案する。
我々の業績改善は因果発見、遷移モデリング、政策トレーニングの活発なサイクルに起因する。
論文 参考訳(メタデータ) (2022-07-19T05:31:16Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - RANK-NOSH: Efficient Predictor-Based Architecture Search via Non-Uniform
Successive Halving [74.61723678821049]
予算の浪費を回避するため,早期に性能の低いアーキテクチャのトレーニングを終了する階層的スケジューリングアルゴリズムであるNOn-uniform Successive Halving (NOSH)を提案する。
予測器に基づくアーキテクチャ探索をペア比較でランク付けする学習として定式化する。
その結果、RANK-NOSHは検索予算を5倍に削減し、様々な空間やデータセットにおける従来の最先端予測手法よりも、競争力やパフォーマンスの向上を実現した。
論文 参考訳(メタデータ) (2021-08-18T07:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。