論文の概要: DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2502.01956v2
- Date: Tue, 27 May 2025 15:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.075841
- Title: DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents
- Title(参考訳): DHP:階層的強化学習エージェントのための離散的階層的計画
- Authors: Shashank Sharma, Janina Hoffmann, Vinay Namboodiri,
- Abstract要約: 本稿では,連続距離推定を離散的到達性チェックに置き換え,サブゴールの実現可能性を評価する手法を提案する。
25室のナビゲーション環境での実験では、100%の成功率を示している。
この方法は運動量に基づく制御タスクにも一般化され、再計画には$log N$ステップしか必要としない。
- 参考スコア(独自算出の注目度): 2.1438108757511958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical Reinforcement Learning (HRL) agents often struggle with long-horizon visual planning due to their reliance on error-prone distance metrics. We propose Discrete Hierarchical Planning (DHP), a method that replaces continuous distance estimates with discrete reachability checks to evaluate subgoal feasibility. DHP recursively constructs tree-structured plans by decomposing long-term goals into sequences of simpler subtasks, using a novel advantage estimation strategy that inherently rewards shorter plans and generalizes beyond training depths. In addition, to address the data efficiency challenge, we introduce an exploration strategy that generates targeted training examples for the planning modules without needing expert data. Experiments in 25-room navigation environments demonstrate $100\%$ success rate (vs $82\%$ baseline) and $73$-step average episode length (vs $158$-step baseline). The method also generalizes to momentum-based control tasks and requires only $\log N$ steps for replanning. Theoretical analysis and ablations validate our design choices.
- Abstract(参考訳): Hierarchical Reinforcement Learning (HRL) エージェントは、エラーが発生しやすい距離のメトリクスに依存するため、長期の視覚計画に苦慮することが多い。
本稿では,連続距離推定を離散到達性チェックに置き換える手法として,離散階層計画(DHP)を提案する。
DHPは、長期的目標を単純なサブタスクのシーケンスに分解することで、木構造プランを再帰的に構築する。
また、データ効率の課題に対処するため、専門家データを必要としない計画モジュールを対象としたトレーニング例を生成する探索戦略を導入する。
25室のナビゲーション環境での実験では、成功率(vs 8,2\%$ベースライン)と平均エピソードの長さ(vs $158$ステップベースライン)が100\%(vs 8,2\%$ベースライン)である。
この方法は運動量に基づく制御タスクにも一般化され、再計画のためには$\log N$ステップしか必要としない。
理論的分析とアブリケーションは、我々の設計選択を検証する。
関連論文リスト
- Vote-Tree-Planner: Optimizing Execution Order in LLM-based Task Planning Pipeline via Voting [4.500734889060007]
本稿では,大規模言語モデル(LLM)とタスク計画システムの相乗効果について述べる。
本稿では,計画の有効性を高めつつ冗長性を最小化するVote-Tree-Plannerを提案する。
論文 参考訳(メタデータ) (2025-02-13T20:08:06Z) - Proposing Hierarchical Goal-Conditioned Policy Planning in Multi-Goal Reinforcement Learning [0.0]
強化学習と自動計画を組み合わせた手法を提案する。
我々のアプローチは,高レベル行動(HLA)を用いたモンテカルロ木探索(MCTS)計画を用いて,階層的に構成された短期目標条件ポリシーを用いる。
エージェントの生涯に維持される単一のプランツリーは、目標達成に関する知識を持っている。
論文 参考訳(メタデータ) (2025-01-03T09:37:54Z) - Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。
我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-27T10:05:45Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Simple Hierarchical Planning with Diffusion [54.48129192534653]
拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
論文 参考訳(メタデータ) (2024-01-05T05:28:40Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z) - Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。
このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文 参考訳(メタデータ) (2020-10-25T04:36:20Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。