論文の概要: Hierarchical Reinforcement Learning in Complex 3D Environments
- arxiv url: http://arxiv.org/abs/2302.14451v1
- Date: Tue, 28 Feb 2023 09:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 17:11:58.241052
- Title: Hierarchical Reinforcement Learning in Complex 3D Environments
- Title(参考訳): 複雑な3次元環境における階層的強化学習
- Authors: Bernardo Avila Pires, Feryal Behbahani, Hubert Soyer, Kyriacos
Nikiforou, Thomas Keck, Satinder Singh
- Abstract要約: 階層強化学習(HRL)エージェントは、魅力的な能力を示す可能性がある。
HRLの様々な領域での最近の成功は、実用的で効果的なHRL剤が可能であることを示す証拠となる。
これらの成功にもかかわらず、視覚的に部分的に観察可能な3D環境はHRLエージェントにとって課題のままであった。
- 参考スコア(独自算出の注目度): 16.16652618709808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical Reinforcement Learning (HRL) agents have the potential to
demonstrate appealing capabilities such as planning and exploration with
abstraction, transfer, and skill reuse. Recent successes with HRL across
different domains provide evidence that practical, effective HRL agents are
possible, even if existing agents do not yet fully realize the potential of
HRL. Despite these successes, visually complex partially observable 3D
environments remained a challenge for HRL agents. We address this issue with
Hierarchical Hybrid Offline-Online (H2O2), a hierarchical deep reinforcement
learning agent that discovers and learns to use options from scratch using its
own experience. We show that H2O2 is competitive with a strong non-hierarchical
Muesli baseline in the DeepMind Hard Eight tasks and we shed new light on the
problem of learning hierarchical agents in complex environments. Our empirical
study of H2O2 reveals previously unnoticed practical challenges and brings new
perspective to the current understanding of hierarchical agents in complex
domains.
- Abstract(参考訳): 階層強化学習(HRL)エージェントは、抽象化、転送、スキル再利用による計画や探索といった魅力的な能力を示す可能性がある。
近年のHRLの成功は、既存のエージェントがHRLの可能性を完全に認識していない場合でも、実用的で効果的なHRLエージェントが可能であることを示す証拠となる。
これらの成功にもかかわらず、視覚的に部分的に観察可能な3D環境はHRLエージェントにとって課題のままであった。
この問題を解決するために,階層型ハイブリッドオフラインオンライン(h2o2)を開発した。
我々は,H2O2がDeepMind Hard Eightタスクにおいて,強力な非階層的Museliベースラインと競合していることを示し,複雑な環境下での階層的エージェントの学習問題に新たな光を当てた。
我々のH2O2に関する実証的研究は、未発見の実践的課題を明らかにし、複雑なドメインにおける階層的エージェントの現在の理解に新たな視点をもたらす。
関連論文リスト
- Meta-Learning Integration in Hierarchical Reinforcement Learning for Advanced Task Complexity [0.0]
階層強化学習(HRL)は、それらを構造化されたポリシーに分解することで、複雑なタスクに効果的に取り組む。
我々は、メタラーニングをHRLに統合し、エージェントの学習能力を高め、階層的な政策を迅速に適応させる。
論文 参考訳(メタデータ) (2024-10-10T13:47:37Z) - Imagination-Augmented Hierarchical Reinforcement Learning for Safe and
Interactive Autonomous Driving in Urban Environments [21.30432408940134]
階層的強化学習(HRL)は時間的抽象化を強化学習(RL)に組み込む
本稿では, 効率よく想像力を統合できる HRL (Imagimation-augmented HRL) を提案する。
IAHRLは、エージェントが安全で対話的な行動を実行し、成功率を高め、ベースラインよりも平均エピソードステップを低くすることができる。
論文 参考訳(メタデータ) (2023-11-17T03:41:22Z) - METRA: Scalable Unsupervised RL with Metric-Aware Abstraction [69.90741082762646]
Metric-Aware Abstraction (METRA)は、教師なし強化学習の新たな目標である。
潜在空間のあらゆる方向に移動することを学ぶことで、METRAは様々な振る舞いの抽出可能な集合を得る。
複雑なピクセルベースの環境においても,METRAは様々な有用な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2023-10-13T06:43:11Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - A Survey on Explainable Reinforcement Learning: Concepts, Algorithms,
Challenges [38.70863329476517]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。
励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。
この問題を緩和するために、本質的な解釈可能性やポストホックな説明可能性を構築することにより、知的エージェントの内部動作に光を放つための大量の文献が提案されている。
論文 参考訳(メタデータ) (2022-11-12T13:52:06Z) - Causality-driven Hierarchical Structure Discovery for Reinforcement
Learning [36.03953383550469]
因果型階層型強化学習フレームワークCDHRLを提案する。
我々はCDHRLが因果性駆動パラダイムによる探索効率を著しく向上させることを示した。
2D-MinecraftとEdenの2つの複雑な環境における結果から、CDHRLは因果性駆動パラダイムによる探索効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-10-13T12:42:48Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。