論文の概要: Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning
- arxiv url: http://arxiv.org/abs/2004.11410v1
- Date: Thu, 23 Apr 2020 18:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 08:43:12.453256
- Title: Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning
- Title(参考訳): 目標指向計画のためのモンテカルロ木探索法
- Authors: Giambattista Parascandolo, Lars Buesing, Josh Merel, Leonard
Hasenclever, John Aslanides, Jessica B. Hamrick, Nicolas Heess, Alexander
Neitz, Theophane Weber
- Abstract要約: 暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
- 参考スコア(独自算出の注目度): 78.65083326918351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard planners for sequential decision making (including Monte Carlo
planning, tree search, dynamic programming, etc.) are constrained by an
implicit sequential planning assumption: The order in which a plan is
constructed is the same in which it is executed. We consider alternatives to
this assumption for the class of goal-directed Reinforcement Learning (RL)
problems. Instead of an environment transition model, we assume an imperfect,
goal-directed policy. This low-level policy can be improved by a plan,
consisting of an appropriate sequence of sub-goals that guide it from the start
to the goal state. We propose a planning algorithm, Divide-and-Conquer Monte
Carlo Tree Search (DC-MCTS), for approximating the optimal plan by means of
proposing intermediate sub-goals which hierarchically partition the initial
tasks into simpler ones that are then solved independently and recursively. The
algorithm critically makes use of a learned sub-goal proposal for finding
appropriate partitions trees of new tasks based on prior experience. Different
strategies for learning sub-goal proposals give rise to different planning
strategies that strictly generalize sequential planning. We show that this
algorithmic flexibility over planning order leads to improved results in
navigation tasks in grid-worlds as well as in challenging continuous control
environments.
- Abstract(参考訳): シーケンシャルな意思決定のための標準的なプランナー(モンテカルロ計画、ツリー探索、動的プログラミングなど)は、暗黙的なシーケンシャルな計画の前提によって制約される。
目標指向強化学習(RL)問題に対するこの仮定の代替案を検討する。
環境遷移モデルの代わりに、不完全で目標指向のポリシーを仮定します。
この低レベルポリシーは、開始から目標状態へ導くための適切なサブゴールのシーケンスで構成されるプランによって改善することができる。
本稿では,初期タスクを独立して再帰的に解決する単純なタスクに階層的に分割する中間部分ゴールの提案により,最適計画の近似を行う計画アルゴリズムであるDivide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
このアルゴリズムは、事前の経験に基づいて新しいタスクの適切な分割木を見つけるための学習済みサブゴールの提案を批判的に利用する。
サブゴールの提案を学ぶための異なる戦略は、シーケンシャルプランニングを厳密に一般化する異なる計画戦略をもたらす。
計画順序に対するこのアルゴリズム的柔軟性は、グリッド世界のナビゲーションタスクや、困難な継続的制御環境において、より良い結果をもたらすことを示す。
関連論文リスト
- Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Lifted Sequential Planning with Lazy Constraint Generation Solvers [28.405198103927955]
本稿では,Lzy Clause Generation(LCG)に基づく制約プログラミング(CP)へのアプローチを用いて,オープンな可能性について検討する。
本稿では,いわゆるリフト型因果エンコーディングに基づく新しいCPモデルを提案する。
提案手法は,計画手順の少ない計画インスタンスに対して,最適な逐次計画における最先端の手法と非常によく比較可能であることを報告する。
論文 参考訳(メタデータ) (2023-07-17T04:54:58Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Visual scoping operations for physical assembly [0.0]
本稿では,次のサブゴールとして空間領域を交互に定義することで,計画と行動のインターリーブを行う視覚スコープを提案する。
ビジュアルスコーピングは,計算コストのごく一部しか必要とせず,サブゴールプランナーに匹敵するタスク性能を実現する。
論文 参考訳(メタデータ) (2021-06-10T10:50:35Z) - Extended Task and Motion Planning of Long-horizon Robot Manipulation [28.951816622135922]
タスクとモーション計画(TAMP)には、シンボリック推論とメトリックモーション計画の統合が必要です。
ほとんどのtampアプローチは、シンボリックレベルで環境に関する知識が欠けている場合、実現可能なソリューションを提供しない。
本稿では,計画骨格と行動パラメータに対する決定空間の拡張に関する新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2021-03-09T14:44:08Z) - Robust Hierarchical Planning with Policy Delegation [6.1678491628787455]
本稿では,デリゲートの原理に基づく階層計画のための新しいフレームワークとアルゴリズムを提案する。
このプランニング手法は、様々な領域における古典的なプランニングと強化学習技術に対して、実験的に非常に競争力があることを示す。
論文 参考訳(メタデータ) (2020-10-25T04:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。