論文の概要: Prime the search: Using large language models for guiding geometric task and motion planning by warm-starting tree search
- arxiv url: http://arxiv.org/abs/2506.07062v1
- Date: Sun, 08 Jun 2025 09:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.65627
- Title: Prime the search: Using large language models for guiding geometric task and motion planning by warm-starting tree search
- Title(参考訳): 探索の素性:木探索開始による幾何学的タスクと運動計画の導出に大規模言語モデルを用いる
- Authors: Dongryung Lee, Sejune Joo, Kimin Lee, Beomjoon Kim,
- Abstract要約: 物体の集合を移動障害物の中で指定領域に移動させる問題は、幾何学的タスク・運動計画(G-TAMP)問題とみなすことができる。
G-TAMPの伝統的なアプローチは、ドメインに依存しないアプローチや、探索を導くための計画経験から学ぶことに依存してきた。
本稿では,G-TAMP問題におけるタスク計画の指針として,インターネット規模のデータから得られた常識知識を活かしたLarge Language Models (LLMs) を提案する。
- 参考スコア(独自算出の注目度): 21.42328403783795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of relocating a set of objects to designated areas amidst movable obstacles can be framed as a Geometric Task and Motion Planning (G-TAMP) problem, a subclass of task and motion planning (TAMP). Traditional approaches to G-TAMP have relied either on domain-independent heuristics or on learning from planning experience to guide the search, both of which typically demand significant computational resources or data. In contrast, humans often use common sense to intuitively decide which objects to manipulate in G-TAMP problems. Inspired by this, we propose leveraging Large Language Models (LLMs), which have common sense knowledge acquired from internet-scale data, to guide task planning in G-TAMP problems. To enable LLMs to perform geometric reasoning, we design a predicate-based prompt that encodes geometric information derived from a motion planning algorithm. We then query the LLM to generate a task plan, which is then used to search for a feasible set of continuous parameters. Since LLMs are prone to mistakes, instead of committing to LLM's outputs, we extend Monte Carlo Tree Search (MCTS) to a hybrid action space and use the LLM to guide the search. Unlike the previous approach that calls an LLM at every node and incurs high computational costs, we use it to warm-start the MCTS with the nodes explored in completing the LLM's task plan. On six different G-TAMP problems, we show our method outperforms previous LLM planners and pure search algorithms. Code can be found at: https://github.com/iMSquared/prime-the-search
- Abstract(参考訳): 物体の集合を移動障害物の中で指定領域に移動させる問題は、幾何学的タスク・モーションプランニング(G-TAMP)問題、タスク・アンド・モーションプランニング(TAMP)のサブクラスとみなすことができる。
G-TAMPの伝統的なアプローチは、ドメインに依存しないヒューリスティックや、探索を導くための計画経験から学ぶことに依存してきた。
対照的に、人間はG-TAMP問題で操作するオブジェクトを直感的に決定するために常識を使うことが多い。
そこで我々は,G-TAMP問題におけるタスク計画の指針として,インターネットスケールデータから得られた常識知識を活かしたLarge Language Models (LLMs) を提案する。
LLMの幾何学的推論を可能にするために,動作計画アルゴリズムから得られる幾何情報を符号化する述語ベースのプロンプトを設計する。
次に、LCMに問い合わせてタスクプランを生成し、実行可能な連続パラメータの集合を探索する。
LLM は LLM の出力にコミットする代わりに,モンテカルロ木探索 (MCTS) をハイブリッドアクション空間に拡張し,LLM を用いて探索を誘導する。
各ノードでLCMを呼び出し、高い計算コストを発生させる従来のアプローチとは異なり、LCMのタスクプランを完了するノードでMCTSをウォームスタートする。
6つの異なるG-TAMP問題に対して,提案手法は従来のLLMプランナや純粋探索アルゴリズムよりも優れていることを示す。
コードは、https://github.com/iMSquared/prime-the-search.comで参照できる。
関連論文リスト
- Query-Efficient Planning with Language Models [8.136901056728945]
複雑な環境での計画では、エージェントがスタートからゴールまでの一連のアクションを見つけるために、ワールドモデルを効率的にクエリする必要がある。
最近の研究によると、Large Language Models(LLM)は、将来有望な状態を探索し、世界からのフィードバックに適応することによって、計画に役立つ可能性がある。
両アプローチが同等のベースラインで改善されているのに対して,LLMを生成プランナーとして使用すると,相互作用が大幅に減少することを示す。
論文 参考訳(メタデータ) (2024-12-09T02:51:21Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - Graph-enhanced Large Language Models in Asynchronous Plan Reasoning [18.402877904882107]
大規模な言語モデル(LLM)は、ベンチマークAsyncHowのタスク解決プロセスに関するイラストが提供されないと、動作が悪くなります。
そこで我々は,グラフと自然言語のプロンプトを組み合わせ,最先端の結果を得るPlan Like a Graph (PLaG) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T08:26:33Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。
LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。
学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文 参考訳(メタデータ) (2023-09-29T12:20:19Z) - Understanding the Capabilities of Large Language Models for Automated
Planning [24.37599752610625]
この研究は、複雑な計画問題の解決におけるLLMの能力に光を当てようとしている。
この文脈で LLM を使用するための最も効果的なアプローチに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-05-25T15:21:09Z) - LLM+P: Empowering Large Language Models with Optimal Planning
Proficiency [46.20085545432116]
大規模言語モデル(LLM)は、目覚ましいゼロショットの一般化能力を示している。
古典的なプランナーは、一度形式化された方法で問題が与えられると、効率的な検索アルゴリズムを使って、正しい、あるいは最適なプランを素早く特定できる。
本稿では,従来のプランナーの強みを LLM に組み込んだ最初のフレームワークである LLM+P を紹介する。
論文 参考訳(メタデータ) (2023-04-22T20:34:03Z) - Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。
複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。
本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。