論文の概要: Causal Information Prioritization for Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.10097v1
- Date: Fri, 14 Feb 2025 11:44:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:18.212310
- Title: Causal Information Prioritization for Efficient Reinforcement Learning
- Title(参考訳): 効果的な強化学習のための因果情報優先化
- Authors: Hongye Cao, Fan Feng, Tianpei Yang, Jing Huo, Yang Gao,
- Abstract要約: 現在の強化学習(RL)法は、しばしばサンプル効率に悩まされる。
最近の因果的アプローチはこの問題に対処することを目的としているが、それらは報酬誘導による状態や行動の因果的理解の基礎的なモデリングを欠いている。
本稿では,CIP(Causal Information Prioritization, 因果情報優先化)と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 21.74375718642216
- License:
- Abstract: Current Reinforcement Learning (RL) methods often suffer from sample-inefficiency, resulting from blind exploration strategies that neglect causal relationships among states, actions, and rewards. Although recent causal approaches aim to address this problem, they lack grounded modeling of reward-guided causal understanding of states and actions for goal-orientation, thus impairing learning efficiency. To tackle this issue, we propose a novel method named Causal Information Prioritization (CIP) that improves sample efficiency by leveraging factored MDPs to infer causal relationships between different dimensions of states and actions with respect to rewards, enabling the prioritization of causal information. Specifically, CIP identifies and leverages causal relationships between states and rewards to execute counterfactual data augmentation to prioritize high-impact state features under the causal understanding of the environments. Moreover, CIP integrates a causality-aware empowerment learning objective, which significantly enhances the agent's execution of reward-guided actions for more efficient exploration in complex environments. To fully assess the effectiveness of CIP, we conduct extensive experiments across 39 tasks in 5 diverse continuous control environments, encompassing both locomotion and manipulation skills learning with pixel-based and sparse reward settings. Experimental results demonstrate that CIP consistently outperforms existing RL methods across a wide range of scenarios.
- Abstract(参考訳): 現在の強化学習(RL)手法は、しばしばサンプル効率に悩まされ、国家、行動、報酬間の因果関係を無視する盲点探索戦略から生じる。
最近の因果的アプローチはこの問題に対処することを目的としているが、それらは、目標指向のための状態や行動に対する報酬誘導因果的理解の基礎的なモデリングを欠いているため、学習効率を損なう。
そこで本稿では, 因果情報優先化(CIP)と呼ばれる手法を提案する。因果情報優先化(CIP)は, 因果情報に因果関係を推定し, 因果情報の優先順位付けを可能にする。
具体的には、環境の因果的理解の下で、CIPは、状況と報酬の間の因果関係を特定して、反ファクト的なデータ拡張を実行し、高インパクトな状態特徴を優先する。
さらに、CIPは因果認識によるエンパワーメント学習の目標を統合し、複雑な環境でより効率的な探索を行うための報酬誘導行動の実行を大幅に促進する。
CIPの有効性を十分に評価するために、我々は5つの多様な連続制御環境において39のタスクにまたがる広範囲な実験を行い、画素ベースおよびスパース報酬設定で学習する動作と操作スキルの両方を包含する。
実験の結果、CIPは様々なシナリオにおいて既存のRLメソッドよりも一貫して優れていることが示された。
関連論文リスト
- Boosting Efficiency in Task-Agnostic Exploration through Causal Knowledge [15.588014017373048]
因果探索は、データ収集とモデルトレーニングの両方に根底にある因果知識を活用する戦略である。
我々は,タスクに依存しない強化学習分野における世界モデル学習のサンプル効率と信頼性の向上に焦点をあてる。
我々は、因果探索が少ないデータを用いて正確な世界モデルを学ぶのに役立つことを実証し、その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2024-07-30T02:51:21Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment
Effect Estimation [137.3520153445413]
下流推論に重点を置く因果発見手法の評価において,顕著なギャップが存在する。
我々は,GFlowNetsに基づく新たな手法を含む,確立された7つの基本因果探索手法を評価する。
研究の結果,研究対象のアルゴリズムのいくつかは,多種多様なATEモードを効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2023-07-11T02:58:10Z) - Active Inference and Reinforcement Learning: A unified inference on continuous state and action spaces under partial observability [19.56438470022024]
多くの実世界の問題は、部分的に観測可能な決定過程(POMDP)として定式化された部分的な観察を含む。
これまでの研究では、過去の行動や観察の記憶を取り入れたり、環境の本当の状態を推測することで、PMDPのRLに取り組みました。
アクティブ推論(AIF)と強化学習(RL)の理論的関係を確立する統一原理を提案する。
実験により,連続的な空間を部分的に観測可能なタスクを解く上で,本手法の優れた学習能力を実証した。
論文 参考訳(メタデータ) (2022-12-15T16:28:06Z) - CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery [88.97076030698433]
本稿では,教師なしスキル発見のためのアルゴリズムであるContrastive Intrinsic Control (CIC)を紹介する。
CICは、状態エントロピーを最大化することで、多様な振る舞いを明示的にインセンティブ化する。
CICは従来の教師なしスキル発見手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-02-01T00:36:29Z) - Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。
CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。
我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文 参考訳(メタデータ) (2021-11-26T10:57:47Z) - Causal Influence Detection for Improving Efficiency in Reinforcement
Learning [11.371889042789219]
条件付き相互情報に基づく状況依存因果関係の尺度を導入する。
影響の状態を確実に検出できることが示される。
修正アルゴリズムはすべて、ロボット操作タスクにおけるデータ効率の大幅な向上を示している。
論文 参考訳(メタデータ) (2021-06-07T09:21:56Z) - Confounding Feature Acquisition for Causal Effect Estimation [6.174721516017138]
我々は,この課題を因果推論のための特徴獲得の問題として捉えている。
我々のゴールは、効率的な平均治療効果の推定につながるサンプルにおいて、行方不明の共同創業者の固定的で既知のサブセットの取得値を優先順位付けすることです。
論文 参考訳(メタデータ) (2020-11-17T16:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。