論文の概要: Goal Discovery with Causal Capacity for Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.09624v1
- Date: Wed, 13 Aug 2025 08:54:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.822454
- Title: Goal Discovery with Causal Capacity for Efficient Reinforcement Learning
- Title(参考訳): 効果的な強化学習のための因果力によるゴール発見
- Authors: Yan Yu, Yaodong Yang, Zhengbo Lu, Chengdong Ma, Wengang Zhou, Houqiang Li,
- Abstract要約: 因果推論は人間が世界を探検するのに不可欠である。
本稿では,効率的な環境探索のための新たなゴールディスカバリーと因果容量フレームワークを提案する。
- 参考スコア(独自算出の注目度): 85.28685202281918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal inference is crucial for humans to explore the world, which can be modeled to enable an agent to efficiently explore the environment in reinforcement learning. Existing research indicates that establishing the causality between action and state transition will enhance an agent to reason how a policy affects its future trajectory, thereby promoting directed exploration. However, it is challenging to measure the causality due to its intractability in the vast state-action space of complex scenarios. In this paper, we propose a novel Goal Discovery with Causal Capacity (GDCC) framework for efficient environment exploration. Specifically, we first derive a measurement of causality in state space, \emph{i.e.,} causal capacity, which represents the highest influence of an agent's behavior on future trajectories. After that, we present a Monte Carlo based method to identify critical points in discrete state space and further optimize this method for continuous high-dimensional environments. Those critical points are used to uncover where the agent makes important decisions in the environment, which are then regarded as our subgoals to guide the agent to make exploration more purposefully and efficiently. Empirical results from multi-objective tasks demonstrate that states with high causal capacity align with our expected subgoals, and our GDCC achieves significant success rate improvements compared to baselines.
- Abstract(参考訳): 因果推論は人間が世界を探索するために不可欠であり、エージェントが強化学習の環境を効率的に探索できるようにモデル化することができる。
既存の研究では、行動と状態遷移の因果関係を確立することで、政策が将来の軌道にどのように影響するかを判断するエージェントが強化されることが示されている。
しかし、複雑なシナリオの広大な状態-作用空間において、その難易度から因果性を測定することは困難である。
本稿では,効率的な環境探索のためのGDCC(Goal Discovery with Causal Capacity)フレームワークを提案する。
具体的には、まず状態空間における因果性の測定、すなわち、エージェントの振る舞いが将来の軌跡に与える影響を最大に表す因果容量を導出する。
その後,モンテカルロ法を用いて離散状態空間における臨界点を同定し,高次元連続環境に最適化する。
これらのクリティカルポイントは、エージェントが環境において重要な決定を行う場所を明らかにするために使用され、エージェントがより客観的かつ効率的に探索できるように、エージェントを誘導するためのサブゴールと見なされる。
多目的タスクによる実証的な結果から、我々の期待するサブゴールと因果能力の高い状態が一致していることが示され、GDCCはベースラインに比べて大きな成功率の向上を実現している。
関連論文リスト
- Can Large Language Models Help Experimental Design for Causal Discovery? [94.66802142727883]
Large Language Model Guided Intervention Targeting (LeGIT) は、LLMを効果的に組み込んだ堅牢なフレームワークであり、因果発見のための介入のための既存の数値的アプローチを強化する。
LeGITは、既存の方法よりも大幅な改善と堅牢性を示し、人間を超越している。
論文 参考訳(メタデータ) (2025-03-03T03:43:05Z) - Causal Information Prioritization for Efficient Reinforcement Learning [21.74375718642216]
現在の強化学習(RL)法は、しばしばサンプル効率に悩まされる。
最近の因果的アプローチはこの問題に対処することを目的としているが、それらは報酬誘導による状態や行動の因果的理解の基礎的なモデリングを欠いている。
本稿では,CIP(Causal Information Prioritization, 因果情報優先化)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-14T11:44:17Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Dealing with uncertainty: balancing exploration and exploitation in deep
recurrent reinforcement learning [0.0]
環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。
適応的手法は、探索と搾取の間のトレードオフを近似した方がよいことを示す。
論文 参考訳(メタデータ) (2023-10-12T13:45:33Z) - Landmark Guided Active Exploration with State-specific Balance Coefficient [4.539657469634845]
目標条件付き値関数に基づいて,目標空間に計画を立てることにより,サブゴールの予測尺度を設計する。
本稿では,予測と新規性の尺度を統合することで,ランドマーク誘導型探査戦略を提案する。
論文 参考訳(メタデータ) (2023-06-30T08:54:47Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Teaching Agents how to Map: Spatial Reasoning for Multi-Object
Navigation [11.868792440783055]
与えられた位置におけるエージェントと到達目標の間の空間的関係を定量化する指標を推定する学習は、多目的ナビゲーション設定において高い正の影響を及ぼすことを示す。
提案された補助的損失で訓練された文献の学習ベースのエージェントは、マルチオブジェクトナビゲーションチャレンジへの勝利であった。
論文 参考訳(メタデータ) (2021-07-13T12:01:05Z) - Understanding the origin of information-seeking exploration in
probabilistic objectives for control [62.997667081978825]
探索と探索のトレードオフは適応行動の記述の中心である。
このトレードオフを解決する1つのアプローチは、エージェントが固有の「探索駆動」を持っていることを装備または提案することであった。
汎用的最大化と情報参照行動の組み合わせは, 目的の全く異なる分類の最小化から生じることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。