論文の概要: Proposing Hierarchical Goal-Conditioned Policy Planning in Multi-Goal Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.01727v1
- Date: Fri, 03 Jan 2025 09:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:12.778836
- Title: Proposing Hierarchical Goal-Conditioned Policy Planning in Multi-Goal Reinforcement Learning
- Title(参考訳): 多目的強化学習における階層型目標合意型政策計画の提案
- Authors: Gavin B. Rens,
- Abstract要約: 強化学習と自動計画を組み合わせた手法を提案する。
我々のアプローチは,高レベル行動(HLA)を用いたモンテカルロ木探索(MCTS)計画を用いて,階層的に構成された短期目標条件ポリシーを用いる。
エージェントの生涯に維持される単一のプランツリーは、目標達成に関する知識を持っている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Humanoid robots must master numerous tasks with sparse rewards, posing a challenge for reinforcement learning (RL). We propose a method combining RL and automated planning to address this. Our approach uses short goal-conditioned policies (GCPs) organized hierarchically, with Monte Carlo Tree Search (MCTS) planning using high-level actions (HLAs). Instead of primitive actions, the planning process generates HLAs. A single plan-tree, maintained during the agent's lifetime, holds knowledge about goal achievement. This hierarchy enhances sample efficiency and speeds up reasoning by reusing HLAs and anticipating future actions. Our Hierarchical Goal-Conditioned Policy Planning (HGCPP) framework uniquely integrates GCPs, MCTS, and hierarchical RL, potentially improving exploration and planning in complex tasks.
- Abstract(参考訳): ヒューマノイドロボットは、低報酬で多数のタスクを習得し、強化学習(RL)に挑戦する。
本稿では,RLと自動計画を組み合わせた手法を提案する。
当社のアプローチでは,高レベルアクション(HLA)を使用したMCTS(Monte Carlo Tree Search)を計画しながら,短期目標条件ポリシ(GCP)を階層的に構成する。
プリミティブアクションの代わりに、プランニングプロセスはHLAを生成する。
エージェントの生涯に維持される単一のプランツリーは、目標達成に関する知識を持っている。
この階層はサンプル効率を高め、HLAを再利用して将来の行動を予測することによって推論を高速化する。
HGCPP(Hierarchical Goal-Conditioned Policy Planning)フレームワークはGCP、MCTS、階層RLを独自に統合し、複雑なタスクの探索と計画を改善する可能性があります。
関連論文リスト
- DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents [2.1438108757511958]
我々の重要な貢献は、従来の距離に基づくアプローチに代わる離散階層的計画法(DHP)である。
提案手法の理論的基礎を提供し,その効果を広範な経験的評価を通じて実証する。
提案手法は,25室環境における長期視覚計画タスクにおいて,成功率と平均エピソード長において,従来のベンチマークよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-02-04T03:05:55Z) - Scalable Hierarchical Reinforcement Learning for Hyper Scale Multi-Robot Task Planning [17.989467671223043]
RMFSにおける超大規模MRTPのための効率的な多段階HRLベースのマルチロボットタスクプランナを構築した。
最適性を確保するため、プランナーは集中型アーキテクチャで設計されているが、スケールアップと一般化の課題ももたらしている。
我々のプランナーは、最大200台のロボットと1000台の検索ラックでRMFSの超大規模MRTPインスタンスにスケールアップできる。
論文 参考訳(メタデータ) (2024-12-27T09:07:11Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。
このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文 参考訳(メタデータ) (2020-10-25T04:36:20Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。