Fugu-MT 論文翻訳(概要): DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents

論文の概要: DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents

arxiv url: http://arxiv.org/abs/2502.01956v1
Date: Tue, 04 Feb 2025 03:05:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.819023
Title: DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents
Title（参考訳）: DHP:階層的強化学習エージェントのための離散的階層的計画
Authors: Shashank Sharma, Janina Hoffmann, Vinay Namboodiri,
Abstract要約: 我々の重要な貢献は、従来の距離に基づくアプローチに代わる離散階層的計画法(DHP)である。提案手法の理論的基礎を提供し,その効果を広範な経験的評価を通じて実証する。提案手法は,25室環境における長期視覚計画タスクにおいて,成功率と平均エピソード長において,従来のベンチマークよりも有意に優れていた。
参考スコア（独自算出の注目度）: 2.1438108757511958
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we address the challenge of long-horizon visual planning tasks using Hierarchical Reinforcement Learning (HRL). Our key contribution is a Discrete Hierarchical Planning (DHP) method, an alternative to traditional distance-based approaches. We provide theoretical foundations for the method and demonstrate its effectiveness through extensive empirical evaluations. Our agent recursively predicts subgoals in the context of a long-term goal and receives discrete rewards for constructing plans as compositions of abstract actions. The method introduces a novel advantage estimation strategy for tree trajectories, which inherently encourages shorter plans and enables generalization beyond the maximum tree depth. The learned policy function allows the agent to plan efficiently, requiring only $\log N$ computational steps, making re-planning highly efficient. The agent, based on a soft-actor critic (SAC) framework, is trained using on-policy imagination data. Additionally, we propose a novel exploration strategy that enables the agent to generate relevant training examples for the planning modules. We evaluate our method on long-horizon visual planning tasks in a 25-room environment, where it significantly outperforms previous benchmarks at success rate and average episode length. Furthermore, an ablation study highlights the individual contributions of key modules to the overall performance.
Abstract（参考訳）: 本稿では,階層的強化学習(HRL)を用いた長期的視覚計画タスクの課題に対処する。我々の重要な貢献は、従来の距離に基づくアプローチに代わる離散階層的計画法(DHP)である。提案手法の理論的基礎を提供し,その効果を広範な経験的評価を通じて実証する。エージェントは,長期的目標の文脈におけるサブゴールを再帰的に予測し,抽象行動の構成として計画を構成する上での離散的な報酬を受け取る。提案手法では,木軌道に対する新たな優位性推定手法を導入し,本質的には計画の短縮を奨励し,最大木深度を超える一般化を可能にする。学習されたポリシー関数により、エージェントは効率的に計画でき、計算ステップは$\log N$しか必要とせず、再計画は非常に効率的である。このエージェントは、SAC(Soft-actor critic)フレームワークに基づいて、政治上の想像力データを用いて訓練されている。さらに,エージェントが計画モジュールに対して関連するトレーニング例を作成できる新しい探索戦略を提案する。提案手法は,25室環境における長期視覚計画タスクにおいて,成功率と平均エピソード長において,従来のベンチマークよりも有意に優れていた。さらに、アブレーション調査では、パフォーマンス全体に対する主要なモジュールの個々の貢献を強調している。

関連論文リスト

DeepPlanner: Scaling Planning Capability for Deep Research Agents via Advantage Shaping [74.34061104176554]
我々は、ディープリサーチエージェントの計画能力を効果的に向上するエンドツーエンドのRLフレームワークであるDeepPlannerを提案する。提案手法は,高エントロピートークンの大幅な更新を割り当てるエントロピーに基づく用語を用いてトークンレベルの優位性を形作るとともに,計画集約ロールアウトに対するサンプルレベルの優位性を選択的に向上させる。
論文参考訳（メタデータ） (2025-10-14T20:47:05Z)
Tree-Guided Diffusion Planner [31.664192839205608]
事前訓練された拡散を伴う計画がテストタイム誘導制御問題に対する有望なアプローチとして浮上した。本研究では、構造化軌道生成による探索と利用のバランスをとるゼロ時間テストタイム計画フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-29T17:27:44Z)
PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文参考訳（メタデータ） (2025-07-10T07:30:44Z)
Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning [5.274804664403783]
SSE(Strict Subgoal Execution)は、グラフベースの階層的RLフレームワークで、単一ステップのサブゴアル到達性を強制する。 SSE は既存の目標条件付き RL および階層型 RL アプローチを効率と成功率の両方で一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-06-26T06:35:42Z)
Efficient Robotic Policy Learning via Latent Space Backward Planning [17.770562202624962]
現行のロボット計画手法は、しばしば、全画素の詳細を持つ多フレーム画像の予測に頼っている。本稿では,その課題を最終目標とするLBP(Latent Space Backward Planning scheme)を提案する。 LBPは既存の細粒度・前方計画法よりも優れた性能を示し,SOTA性能を実現している。
論文参考訳（メタデータ） (2025-05-11T06:13:51Z)
HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文参考訳（メタデータ） (2025-05-05T02:38:58Z)
Extendable Long-Horizon Planning via Hierarchical Multiscale Diffusion [62.91968752955649]
本稿では,学習データよりも長い軌道計画を行うための,拡張可能な長期計画支援エージェントの課題に対処する。より短いものを縫い合わせることで、より長い軌跡を反復的に生成する拡張法を提案する。 HM-ディフューザーは階層構造を用いてこれらの拡張軌道を訓練し、複数の時間スケールにわたるタスクを効率的に処理する。
論文参考訳（メタデータ） (2025-03-25T22:52:46Z)
Vote-Tree-Planner: Optimizing Execution Order in LLM-based Task Planning Pipeline via Voting [4.500734889060007]
本稿では,大規模言語モデル(LLM)とタスク計画システムの相乗効果について述べる。本稿では,計画の有効性を高めつつ冗長性を最小化するVote-Tree-Plannerを提案する。
論文参考訳（メタデータ） (2025-02-13T20:08:06Z)
Proposing Hierarchical Goal-Conditioned Policy Planning in Multi-Goal Reinforcement Learning [0.0]
強化学習と自動計画を組み合わせた手法を提案する。我々のアプローチは,高レベル行動(HLA)を用いたモンテカルロ木探索(MCTS)計画を用いて,階層的に構成された短期目標条件ポリシーを用いる。エージェントの生涯に維持される単一のプランツリーは、目標達成に関する知識を持っている。
論文参考訳（メタデータ） (2025-01-03T09:37:54Z)
Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。 ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文参考訳（メタデータ） (2024-12-27T10:05:45Z)
Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文参考訳（メタデータ） (2024-06-18T22:57:06Z)
Simple Hierarchical Planning with Diffusion [54.48129192534653]
拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
論文参考訳（メタデータ） (2024-01-05T05:28:40Z)
Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文参考訳（メタデータ） (2023-03-20T14:51:10Z)
Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2023-01-30T15:04:39Z)
C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。 E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文参考訳（メタデータ） (2021-10-22T22:05:31Z)
Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文参考訳（メタデータ） (2021-06-25T22:54:28Z)
Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文参考訳（メタデータ） (2020-10-25T04:36:20Z)
PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。本研究は,PlanGANが4～8倍の効率で,同等の性能を達成できることを示唆する。
論文参考訳（メタデータ） (2020-06-01T12:53:09Z)
Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文参考訳（メタデータ） (2020-04-23T18:08:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。