論文の概要: Landmark Guided Active Exploration with Stable Low-level Policy Learning
- arxiv url: http://arxiv.org/abs/2306.17484v1
- Date: Fri, 30 Jun 2023 08:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 13:03:57.480553
- Title: Landmark Guided Active Exploration with Stable Low-level Policy Learning
- Title(参考訳): 安定的低レベル政策学習を用いたランドマークのアクティブ探索
- Authors: Fei Cui, Jiaojiao Fang, Mengke Yang, Guizhong Liu
- Abstract要約: 本研究では,目標条件付き値関数に基づく目標空間の計画により,サブゴールの予測尺度を設計する。
本稿では,予測と新規性の両立によるランドマーク誘導探査戦略を提案する。
- 参考スコア(独自算出の注目度): 6.1476023560720705
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Goal-conditioned hierarchical reinforcement learning (GCHRL) decomposes
long-horizon tasks into sub-tasks through a hierarchical framework and it has
demonstrated promising results across a variety of domains. However, the
high-level policy's action space is often excessively large, presenting a
significant challenge to effective exploration and resulting in potentially
inefficient training. Moreover, the dynamic variability of the low-level policy
introduces non-stationarity to the high-level state transition function,
significantly impeding the learning of the high-level policy. In this paper, we
design a measure of prospect for subgoals by planning in the goal space based
on the goal-conditioned value function. Building upon the measure of prospect,
we propose a landmark-guided exploration strategy by integrating the measures
of prospect and novelty which aims to guide the agent to explore efficiently
and improve sample efficiency. To address the non-stationarity arising from the
dynamic changes of the low-level policy, we apply a state-specific
regularization to the learning of low-level policy, which facilitates stable
learning of the hierarchical policy. The experimental results demonstrate that
our proposed exploration strategy significantly outperforms the baseline
methods across multiple tasks.
- Abstract(参考訳): ゴール条件付き階層強化学習(GCHRL)は,階層的な枠組みを通じて長期タスクをサブタスクに分解し,様々な領域で有望な結果を示した。
しかし、高水準政策の行動空間は、しばしば過度に大きくなり、効果的な探索に重大な挑戦をし、潜在的に非効率な訓練をもたらす。
さらに、低レベルポリシーの動的変動性は、高レベル状態遷移関数に非定常性をもたらし、高レベルポリシーの学習を著しく妨げている。
本稿では,ゴール条件付き値関数に基づく目標空間の計画によるサブゴールの予測尺度を設計する。
そこで本研究では, エージェントが効率的に探索し, サンプル効率を向上させるように指導することを目的とした, 予測と新しさの尺度を統合し, ランドマークガイドによる探索戦略を提案する。
低レベルポリシーの動的変化から生じる非定常性に対処するために、低レベルポリシーの学習に州固有の規則化を適用することにより、階層的ポリシーの安定した学習が容易になる。
実験の結果,提案手法は複数のタスクにまたがるベースラインメソッドを大きく上回ることがわかった。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Goal Exploration via Adaptive Skill Distribution for Goal-Conditioned Reinforcement Learning [5.536147897588383]
本研究では,学習過程における環境構造パターンの把握を目的とした新しいフレームワークであるGAASDを紹介する。
適応的スキル分布を用いた探索効率は, 均一なスキル分布に比べて顕著に向上した。
論文 参考訳(メタデータ) (2024-04-19T16:54:55Z) - Goal-conditioned Offline Planning from Curious Exploration [28.953718733443143]
本研究では,教師なし探索技術の産物から目標条件付き行動を抽出することの課題について考察する。
従来の目標条件強化学習手法では,この困難なオフライン環境では,値関数とポリシの抽出が不十分であることがわかった。
そこで本研究では,学習した値のランドスケープに対するモデルベース計画と,グラフベースの値アグリゲーション手法を組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-11-28T17:48:18Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Deep Intrinsically Motivated Exploration in Continuous Control [0.0]
連続的なシステムでは、ネットワークのパラメータや選択されたアクションがランダムノイズによって乱されるような、間接的でない戦略によって探索が行われることが多い。
我々は、動物モチベーションシステムに関する既存の理論を強化学習パラダイムに適応させ、新しい探究戦略を導入する。
我々のフレームワークは、より大きく多様な状態空間に拡張し、ベースラインを劇的に改善し、間接的でない戦略を大幅に上回る。
論文 参考訳(メタデータ) (2022-10-01T14:52:16Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Efficient Hierarchical Exploration with Stable Subgoal Representation
Learning [26.537055962523162]
本研究では,よく探索された領域におけるサブゴール埋め込みを安定化する状態特異な正規化を提案する。
我々は、新しい有望なサブゴールや国家を積極的に追求する効率的な階層的な探索戦略を開発する。
論文 参考訳(メタデータ) (2021-05-31T07:28:59Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。