論文の概要: Balancing Exploration and Exploitation in Hierarchical Reinforcement
Learning via Latent Landmark Graphs
- arxiv url: http://arxiv.org/abs/2307.12063v1
- Date: Sat, 22 Jul 2023 12:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 18:08:00.112914
- Title: Balancing Exploration and Exploitation in Hierarchical Reinforcement
Learning via Latent Landmark Graphs
- Title(参考訳): 潜在ランドマークグラフを用いた階層的強化学習における探索と爆発のバランス
- Authors: Qingyang Zhang, Yiming Yang, Jingqing Ruan, Xuantang Xiong, Dengpeng
Xing, Bo Xu
- Abstract要約: ゴール・コンディションド・階層的強化学習(GCHRL)は、強化学習における探索・探索ジレンマに対処するための有望なパラダイムである。
GCHRLの有効性は、サブゴール表現関数とサブゴール選択戦略に大きく依存している。
本稿では,潜在ランドマークグラフの動的構築による階層的強化学習を提案する。
- 参考スコア(独自算出の注目度): 31.147969569517286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-Conditioned Hierarchical Reinforcement Learning (GCHRL) is a promising
paradigm to address the exploration-exploitation dilemma in reinforcement
learning. It decomposes the source task into subgoal conditional subtasks and
conducts exploration and exploitation in the subgoal space. The effectiveness
of GCHRL heavily relies on subgoal representation functions and subgoal
selection strategy. However, existing works often overlook the temporal
coherence in GCHRL when learning latent subgoal representations and lack an
efficient subgoal selection strategy that balances exploration and
exploitation. This paper proposes HIerarchical reinforcement learning via
dynamically building Latent Landmark graphs (HILL) to overcome these
limitations. HILL learns latent subgoal representations that satisfy temporal
coherence using a contrastive representation learning objective. Based on these
representations, HILL dynamically builds latent landmark graphs and employs a
novelty measure on nodes and a utility measure on edges. Finally, HILL develops
a subgoal selection strategy that balances exploration and exploitation by
jointly considering both measures. Experimental results demonstrate that HILL
outperforms state-of-the-art baselines on continuous control tasks with sparse
rewards in sample efficiency and asymptotic performance. Our code is available
at https://github.com/papercode2022/HILL.
- Abstract(参考訳): 目標条件階層強化学習(gchrl)は、強化学習における探索・探索ジレンマに対処するための有望なパラダイムである。
ソースタスクをサブゴール条件のサブタスクに分解し、サブゴール空間での探索と利用を行う。
GCHRLの有効性は、サブゴール表現関数とサブゴール選択戦略に大きく依存している。
しかし、既存の研究は、潜伏したサブゴール表現を学習する際にGCHRLの時間的コヒーレンスを見落とし、探索と利用のバランスをとる効率的なサブゴール選択戦略を欠いている。
本稿では,これらの制約を克服するために,潜在ランドマークグラフ(HILL)を動的に構築する階層的強化学習を提案する。
HILLは、コントラッシブな表現学習目標を用いて、時間的コヒーレンスを満たす潜在サブゴナル表現を学習する。
これらの表現に基づき、ヒルは動的に潜在ランドマークグラフを構築し、ノードのノベルティ測度とエッジのユーティリティ測度を用いる。
最後に、HILLは、両方の措置を共同で検討することで、探索と搾取のバランスをとるサブゴール選択戦略を開発する。
実験の結果,hillはサンプル効率と漸近的性能において,連続制御タスクにおける最先端のベースラインよりも低い効果を示した。
私たちのコードはhttps://github.com/papercode2022/hillで利用可能です。
関連論文リスト
- Probabilistic Subgoal Representations for Hierarchical Reinforcement learning [16.756888009396462]
目標条件付き階層的強化学習において、ハイレベルポリシーは、低レベルポリシーが到達するためのサブゴールを指定する。
既存の方法では、状態空間から潜在サブゴール空間への決定論的マッピングを提供するサブゴール表現を採用している。
本稿では,潜在サブゴアル空間に先行するGPを用いて,サブゴアル表現関数上の後部分布を学習する。
論文 参考訳(メタデータ) (2024-06-24T15:09:22Z) - Learning Rational Subgoals from Demonstrations and Instructions [71.86713748450363]
本稿では,新しい目標を達成するための効率的な長期計画を支援する有用なサブゴール学習フレームワークを提案する。
我々のフレームワークの中核は合理的なサブゴール(RSG)の集合であり、基本的には環境状態上の二項分類器である。
目標記述が与えられた場合、学習したサブゴールと派生した依存関係は、A*やRTといった既成の計画アルゴリズムを促進する。
論文 参考訳(メタデータ) (2023-03-09T18:39:22Z) - Discovering Generalizable Spatial Goal Representations via Graph-based
Active Reward Learning [17.58129740811116]
我々は、報酬学習アプローチ、グラフベースの等価マッピング(GEM)を提案する。
GEMは、オブジェクト間の重要な空間関係を示すグラフと、グラフの各エッジに対する状態同値写像による空間目標仕様を表す。
GEMは,学習目標表現の高次ベースラインに対する一般化性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-24T18:59:06Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - Landmark-Guided Subgoal Generation in Hierarchical Reinforcement
Learning [64.97599673479678]
ランドマークによる階層的強化学習(HIGL)について紹介する。
HIGLは、ランドマークでガイドされたアクションスペースを削減した、ハイレベルなポリシーをトレーニングするための新しいフレームワークである。
我々の実験は、我々のフレームワークが様々な制御タスクで先行技術より優れていることを示した。
論文 参考訳(メタデータ) (2021-10-26T12:16:19Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Efficient Hierarchical Exploration with Stable Subgoal Representation
Learning [26.537055962523162]
本研究では,よく探索された領域におけるサブゴール埋め込みを安定化する状態特異な正規化を提案する。
我々は、新しい有望なサブゴールや国家を積極的に追求する効率的な階層的な探索戦略を開発する。
論文 参考訳(メタデータ) (2021-05-31T07:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。