論文の概要: Disentangling causal effects for hierarchical reinforcement learning
- arxiv url: http://arxiv.org/abs/2010.01351v2
- Date: Mon, 21 Feb 2022 19:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 08:44:08.734813
- Title: Disentangling causal effects for hierarchical reinforcement learning
- Title(参考訳): 階層的強化学習における因果関係の解消
- Authors: Oriol Corcoll and Raul Vicente
- Abstract要約: 本研究は、因果効果の階層を生かして、タスク固有の行動の学習を迅速化することを目的とする。
変分オートエンコーダを用いて制御可能な効果の分布をモデル化する階層的手法CEHRLを提案する。
ランダムな行動による探索と比較して、実験結果はランダムな効果探索がより効率的なメカニズムであることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration and credit assignment under sparse rewards are still challenging
problems. We argue that these challenges arise in part due to the intrinsic
rigidity of operating at the level of actions. Actions can precisely define how
to perform an activity but are ill-suited to describe what activity to perform.
Instead, causal effects are inherently composable and temporally abstract,
making them ideal for descriptive tasks. By leveraging a hierarchy of causal
effects, this study aims to expedite the learning of task-specific behavior and
aid exploration. Borrowing counterfactual and normality measures from causal
literature, we disentangle controllable effects from effects caused by other
dynamics of the environment. We propose CEHRL, a hierarchical method that
models the distribution of controllable effects using a Variational
Autoencoder. This distribution is used by a high-level policy to 1) explore the
environment via random effect exploration so that novel effects are
continuously discovered and learned, and to 2) learn task-specific behavior by
prioritizing the effects that maximize a given reward function. In comparison
to exploring with random actions, experimental results show that random effect
exploration is a more efficient mechanism and that by assigning credit to few
effects rather than many actions, CEHRL learns tasks more rapidly.
- Abstract(参考訳): スパース報酬による探索とクレジットの割り当ては依然として困難な問題である。
これらの課題は、アクションのレベルでの運用が内在的な剛性から生じていると論じている。
アクションは正確にアクティビティの実行方法を定義することができるが、実行すべきアクティビティを記述するのに不適当である。
その代わり、因果効果は本質的に構成可能であり、時間的に抽象的であり、記述的タスクに理想的である。
因果効果の階層を活用し,タスク固有の行動の学習を迅速化し,探索を支援する。
因果文献から反事実的・正規性尺度を借用し,環境の他のダイナミクスによる影響から制御可能な効果を除外する。
変分オートエンコーダを用いて制御可能な効果の分布をモデル化する階層的手法CEHRLを提案する。
この分布は高水準のポリシーによって使用される。
1)ランダム効果探索による環境探索により、新たな効果が継続的に発見・学習されるようにし、
2)与えられた報酬関数を最大化する効果を優先してタスク固有の行動を学ぶ。
ランダムな行動による探索と比較すると、ランダムな効果探索はより効率的なメカニズムであり、多くの行動よりも少ない効果にクレジットを割り当てることで、CEHRLはタスクをより速く学習する。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Fast Proxy Experiment Design for Causal Effect Identification [27.885243535456237]
因果効果を推定する2つのアプローチは、観察的および実験的(ランダム化)な研究である。
対象変数の直接実験は、コストがかかりすぎるか、実行不可能である可能性がある。
プロキシ実験は、メインターゲットと比較して、介入するコストの低い変数に対して実施される。
論文 参考訳(メタデータ) (2024-07-07T11:09:38Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Understanding reinforcement learned crowds [9.358303424584902]
強化学習法は仮想エージェントをアニメーションするために用いられる。
彼らの本当の影響と、それが結果にどのように影響するかは、明らかではない。
学習性能に対する影響の観点から,これらの任意選択のいくつかを分析した。
論文 参考訳(メタデータ) (2022-09-19T20:47:49Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Causal Curiosity: RL Agents Discovering Self-supervised Experiments for
Causal Representation Learning [24.163616087447874]
心因性好奇心(em causal curiosity)は,本質的な報酬である。
エージェントが最適な行動列を学習できることを示す。
また、因果因子表現の知識は、より複雑なタスクにおいてゼロショット学習に役立つことを示す。
論文 参考訳(メタデータ) (2020-10-07T02:07:51Z) - RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2020-10-04T09:20:59Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。