論文の概要: Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2006.11485v4
- Date: Thu, 18 Mar 2021 09:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:11:47.751674
- Title: Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement
Learning
- Title(参考訳): 階層型強化学習における隣接制約付きサブゴールの生成
- Authors: Tianren Zhang, Shangqi Guo, Tian Tan, Xiaolin Hu, Feng Chen
- Abstract要約: 目標条件付き階層型強化学習(HRL)は、強化学習技術をスケールアップするための有望なアプローチである。
HRLは、高レベル、すなわちゴール空間のアクション空間がしばしば大きいため、トレーニングの非効率さに悩まされる。
動作空間上の制約は、現在の状態の$k$-stepの隣接領域に制限することで効果的に緩和できることを示す。
- 参考スコア(独自算出の注目度): 22.319208517053816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-conditioned hierarchical reinforcement learning (HRL) is a promising
approach for scaling up reinforcement learning (RL) techniques. However, it
often suffers from training inefficiency as the action space of the high-level,
i.e., the goal space, is often large. Searching in a large goal space poses
difficulties for both high-level subgoal generation and low-level policy
learning. In this paper, we show that this problem can be effectively
alleviated by restricting the high-level action space from the whole goal space
to a $k$-step adjacent region of the current state using an adjacency
constraint. We theoretically prove that the proposed adjacency constraint
preserves the optimal hierarchical policy in deterministic MDPs, and show that
this constraint can be practically implemented by training an adjacency network
that can discriminate between adjacent and non-adjacent subgoals. Experimental
results on discrete and continuous control tasks show that incorporating the
adjacency constraint improves the performance of state-of-the-art HRL
approaches in both deterministic and stochastic environments.
- Abstract(参考訳): 目標条件付き階層型強化学習(HRL)は、強化学習(RL)技術をスケールアップするための有望なアプローチである。
しかし、高レベルのアクション空間、すなわちゴール空間がしばしば大きいため、トレーニングの非効率さに悩まされることが多い。
大きな目標空間での探索は、ハイレベルなサブゴール生成と低レベルなポリシー学習の両方に困難をもたらす。
本稿では,高レベルな動作空間を目標空間全体から,隣接制約を用いて現在状態の$k$-step隣接領域に制限することにより,この問題を効果的に軽減できることを示す。
提案する随伴制約は決定論的mdpにおいて最適な階層的ポリシーを保ち、隣接部分と非隣接部分の区別が可能な随伴ネットワークを訓練することで実際に実装できることを理論的に証明する。
離散的かつ連続的な制御タスクの実験結果は、隣接制約を組み込むことで、決定論的および確率的環境における最先端のHRLアプローチの性能が向上することを示している。
関連論文リスト
- COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
制約付き拡散予測制御(DPCC)
トレーニングデータから逸脱可能な、明示的な状態と行動制約を持つ拡散制御アルゴリズム。
DPCCは,学習した制御タスクの性能を維持しつつ,新しいテスト時間制約を満たす上で,既存の手法よりも優れるロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。
HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。
挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Bidirectional-Reachable Hierarchical Reinforcement Learning with Mutually Responsive Policies [26.915223518488016]
階層強化学習(HRL)は、それらをサブゴールに分解することで複雑な長距離タスクに対処する。
本稿では,計算効率も向上する単純かつ効果的なアルゴリズムである双方向到達型階層型ポリシー最適化(BrHPO)を提案する。
様々な長期タスクの実験結果からは、BrHPOは他の最先端のHRLベースラインよりも優れており、探索効率と堅牢性が著しく高いことが示されている。
論文 参考訳(メタデータ) (2024-06-26T04:05:04Z) - A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning [54.20447310988282]
異なる(高低と高低の)時間的抽象化において,後悔最小化アルゴリズムのメタアルゴリズムを交互に提案する。
高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
論文 参考訳(メタデータ) (2024-06-21T13:17:33Z) - MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback and Dynamic Distance Constraint [36.970138281579686]
階層的強化学習(HRL)は、タスクをサブゴールに分割し、それらを順次完了させる階層的枠組みを使用する。
現在の手法は、安定した学習プロセスを保証するための適切なサブゴールを見つけるのに苦労している。
本稿では,人間のフィードバックとダイナミック距離制約を取り入れた汎用階層型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T03:11:09Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Adversarially Guided Subgoal Generation for Hierarchical Reinforcement
Learning [5.514236598436977]
本稿では,低レベル政策の現在のインスタンス化に適合するサブゴールを生成するために,高レベル政策を反対に強制することで,非定常性を緩和する新たなHRL手法を提案する。
最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-01-24T12:30:38Z) - Hierarchical Reinforcement Learning with Timed Subgoals [11.758625350317274]
Timed Subgoals (HiTS) を用いた階層型強化学習の導入
HiTSはエージェントがどの目標状態に到達すべきか、いつ到達するかを指定することで、そのタイミングを動的環境に適応させることを可能にする。
実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合,本手法はサンプル効率のよい学習が可能であることが確認された。
論文 参考訳(メタデータ) (2021-12-06T15:11:19Z) - Adjacency constraint for efficient hierarchical reinforcement learning [25.15808501708926]
目標条件強化学習(HRL)は、強化学習(RL)技術をスケールアップするための有望なアプローチである。
HRLは、高レベル、すなわちゴール空間のアクション空間が大きいため、トレーニングの非効率さに悩まされることが多い。
本研究では,高レベル動作空間を現在の状態の隣接する領域$k$-stepに制限することにより,この問題を効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2021-10-30T09:26:45Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。