論文の概要: Variable-Agnostic Causal Exploration for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.12437v1
- Date: Wed, 17 Jul 2024 09:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 17:37:53.503566
- Title: Variable-Agnostic Causal Exploration for Reinforcement Learning
- Title(参考訳): 強化学習のための可変非依存因果探索
- Authors: Minh Hoang Nguyen, Hung Le, Svetha Venkatesh,
- Abstract要約: 強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
- 参考スコア(独自算出の注目度): 56.52768265734155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern reinforcement learning (RL) struggles to capture real-world cause-and-effect dynamics, leading to inefficient exploration due to extensive trial-and-error actions. While recent efforts to improve agent exploration have leveraged causal discovery, they often make unrealistic assumptions of causal variables in the environments. In this paper, we introduce a novel framework, Variable-Agnostic Causal Exploration for Reinforcement Learning (VACERL), incorporating causal relationships to drive exploration in RL without specifying environmental causal variables. Our approach automatically identifies crucial observation-action steps associated with key variables using attention mechanisms. Subsequently, it constructs the causal graph connecting these steps, which guides the agent towards observation-action pairs with greater causal influence on task completion. This can be leveraged to generate intrinsic rewards or establish a hierarchy of subgoals to enhance exploration efficiency. Experimental results showcase a significant improvement in agent performance in grid-world, 2d games and robotic domains, particularly in scenarios with sparse rewards and noisy actions, such as the notorious Noisy-TV environments.
- Abstract(参考訳): 現代の強化学習(RL)は、現実世界の因果関係を捉えるのに苦労しており、大規模な試行錯誤行動による非効率な探索につながっている。
エージェント探索を改善する最近の試みは因果発見を利用したが、しばしば環境における因果変数の非現実的な仮定を行う。
本稿では, 環境因果変数を指定せずにRLにおける探索を促進するために, 因果関係を組み込んだ新しい枠組みであるVACERLを提案する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
その後、これらのステップを接続する因果グラフを構築し、タスク完了に対する因果的な影響が大きい観察-作用ペアへエージェントを誘導する。
これは本質的な報酬を生成するために利用したり、探索効率を高めるためにサブゴールの階層を確立するために利用することができる。
実験結果から, グリッドワールド, 2dゲーム, ロボットドメインにおけるエージェント性能の大幅な向上が確認された。
関連論文リスト
- Curiosity & Entropy Driven Unsupervised RL in Multiple Environments [0.0]
オリジナル作品に5つの新しい修正を加えて実験する。
高次元環境では、好奇心による探索は、エージェントに多様な経験を求め、未知のものを探索するように促すことによって学習を促進する。
しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
論文 参考訳(メタデータ) (2024-01-08T19:25:40Z) - Targeted Reduction of Causal Models [55.11778726095353]
因果表現学習(Causal Representation Learning)は、シミュレーションで解釈可能な因果パターンを明らかにするための有望な道を提供する。
本稿では、複雑な相互作用可能なモデルを因果因子の簡潔な集合に凝縮する方法であるTCR(Targeted Causal Reduction)を紹介する。
複雑なモデルから解釈可能な高レベルな説明を生成する能力は、玩具や機械システムで実証されている。
論文 参考訳(メタデータ) (2023-11-30T15:46:22Z) - Never Explore Repeatedly in Multi-Agent Reinforcement Learning [40.35950679063337]
我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。
Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2023-08-19T05:27:48Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Systematic Evaluation of Causal Discovery in Visual Model Based
Reinforcement Learning [76.00395335702572]
AIと因果関係の中心的な目標は、抽象表現と因果構造を共同で発見することである。
因果誘導を研究するための既存の環境は、複雑なタスク固有の因果グラフを持つため、この目的には適していない。
本研究の目的は,高次変数の学習表現と因果構造の研究を促進することである。
論文 参考訳(メタデータ) (2021-07-02T05:44:56Z) - Disentangling causal effects for hierarchical reinforcement learning [0.0]
本研究は、因果効果の階層を生かして、タスク固有の行動の学習を迅速化することを目的とする。
変分オートエンコーダを用いて制御可能な効果の分布をモデル化する階層的手法CEHRLを提案する。
ランダムな行動による探索と比較して、実験結果はランダムな効果探索がより効率的なメカニズムであることを示している。
論文 参考訳(メタデータ) (2020-10-03T13:19:16Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。