論文の概要: Landmark Guided Active Exploration with Stable Low-level Policy Learning
- arxiv url: http://arxiv.org/abs/2306.17484v1
- Date: Fri, 30 Jun 2023 08:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 13:03:57.480553
- Title: Landmark Guided Active Exploration with Stable Low-level Policy Learning
- Title(参考訳): 安定的低レベル政策学習を用いたランドマークのアクティブ探索
- Authors: Fei Cui, Jiaojiao Fang, Mengke Yang, Guizhong Liu
- Abstract要約: 本研究では,目標条件付き値関数に基づく目標空間の計画により,サブゴールの予測尺度を設計する。
本稿では,予測と新規性の両立によるランドマーク誘導探査戦略を提案する。
- 参考スコア(独自算出の注目度): 6.1476023560720705
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Goal-conditioned hierarchical reinforcement learning (GCHRL) decomposes
long-horizon tasks into sub-tasks through a hierarchical framework and it has
demonstrated promising results across a variety of domains. However, the
high-level policy's action space is often excessively large, presenting a
significant challenge to effective exploration and resulting in potentially
inefficient training. Moreover, the dynamic variability of the low-level policy
introduces non-stationarity to the high-level state transition function,
significantly impeding the learning of the high-level policy. In this paper, we
design a measure of prospect for subgoals by planning in the goal space based
on the goal-conditioned value function. Building upon the measure of prospect,
we propose a landmark-guided exploration strategy by integrating the measures
of prospect and novelty which aims to guide the agent to explore efficiently
and improve sample efficiency. To address the non-stationarity arising from the
dynamic changes of the low-level policy, we apply a state-specific
regularization to the learning of low-level policy, which facilitates stable
learning of the hierarchical policy. The experimental results demonstrate that
our proposed exploration strategy significantly outperforms the baseline
methods across multiple tasks.
- Abstract(参考訳): ゴール条件付き階層強化学習(GCHRL)は,階層的な枠組みを通じて長期タスクをサブタスクに分解し,様々な領域で有望な結果を示した。
しかし、高水準政策の行動空間は、しばしば過度に大きくなり、効果的な探索に重大な挑戦をし、潜在的に非効率な訓練をもたらす。
さらに、低レベルポリシーの動的変動性は、高レベル状態遷移関数に非定常性をもたらし、高レベルポリシーの学習を著しく妨げている。
本稿では,ゴール条件付き値関数に基づく目標空間の計画によるサブゴールの予測尺度を設計する。
そこで本研究では, エージェントが効率的に探索し, サンプル効率を向上させるように指導することを目的とした, 予測と新しさの尺度を統合し, ランドマークガイドによる探索戦略を提案する。
低レベルポリシーの動的変化から生じる非定常性に対処するために、低レベルポリシーの学習に州固有の規則化を適用することにより、階層的ポリシーの安定した学習が容易になる。
実験の結果,提案手法は複数のタスクにまたがるベースラインメソッドを大きく上回ることがわかった。
関連論文リスト
- MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback
and Dynamic Distance Constraint [40.3872201560003]
階層的強化学習(HRL)は、タスクをサブゴールに分割し、それらを順次完了させる階層的枠組みを使用する。
現在の手法は、安定した学習プロセスを保証するための適切なサブゴールを見つけるのに苦労している。
本稿では,人間のフィードバックとダイナミック距離制約を取り入れた汎用階層型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T03:11:09Z) - Learning Control Policies for Variable Objectives from Offline Data [2.7174376960271154]
可変客観ポリシー(VOP)と呼ばれるモデルに基づくポリシー探索手法の概念拡張を導入する。
ポリシーの入力として渡された目的を変更することで、ユーザはその動作を調整する自由を得たり、実行時に最適化目標を再バランスさせたりすることができる。
論文 参考訳(メタデータ) (2023-08-11T13:33:59Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。
期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。
このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文 参考訳(メタデータ) (2023-05-31T14:59:12Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Adversarially Guided Subgoal Generation for Hierarchical Reinforcement
Learning [5.514236598436977]
本稿では,低レベル政策の現在のインスタンス化に適合するサブゴールを生成するために,高レベル政策を反対に強制することで,非定常性を緩和する新たなHRL手法を提案する。
最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-01-24T12:30:38Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Efficient Hierarchical Exploration with Stable Subgoal Representation
Learning [26.537055962523162]
本研究では,よく探索された領域におけるサブゴール埋め込みを安定化する状態特異な正規化を提案する。
我々は、新しい有望なサブゴールや国家を積極的に追求する効率的な階層的な探索戦略を開発する。
論文 参考訳(メタデータ) (2021-05-31T07:28:59Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。