論文の概要: Hierarchical Prompting with Dual LLM Modules for Robotic Task and Motion Planning
- arxiv url: http://arxiv.org/abs/2605.08330v1
- Date: Fri, 08 May 2026 17:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 15:25:38.10557
- Title: Hierarchical Prompting with Dual LLM Modules for Robotic Task and Motion Planning
- Title(参考訳): ロボット作業と運動計画のためのデュアルLDMモジュールを用いた階層型プロンプト
- Authors: Karolina Źróbek, Tessa Pulli, Paweł Gajewski, Antonio Galiza Cerdeira Gonzalez, Bipin Indurkhya,
- Abstract要約: ロボットタスクと運動計画のための階層型言語駆動型フレームワークを提案する。
提案システムは2つの大きな言語モデル (LLM) モジュールを用いる。
システム全体のタスク成功率は86%に達した。
- 参考スコア(独自算出の注目度): 0.9161429607454362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a hierarchical language-driven framework for robotic task and motion planning to improve natural, intuitive human-robot interaction in service and assistance scenarios. The proposed system employs two large language model (LLM) modules: a high-level planning agent and a low-level spatial reasoning sub-module. The primary agent processes natural language commands and generates action sequences using a ReAct-style prompt, interacting with tools for object perception and manipulation (e.g., pick, place, release). For precise spatial placement, such as interpreting "place the mug next to the plate", a separate sub-prompting module handles 3D reasoning based on object geometry and scene layout. The system integrates YOLOX-GDRNet for object detection and pose estimation, along with a motion execution stub. We evaluated the system in 24 test scenarios, ranging from simple spatial commands to high-level instructions and infeasible requests. The system achieved an overall task success rate of 86%.
- Abstract(参考訳): 本稿では,ロボットタスクと動作計画のための階層型言語駆動型フレームワークを提案する。
提案システムでは,高レベル計画エージェントと低レベル空間推論サブモジュールの2つの大規模言語モデル (LLM) モジュールを用いる。
プライマリエージェントは自然言語コマンドを処理し、ReActスタイルのプロンプトを使用してアクションシーケンスを生成し、オブジェクトの認識と操作のためのツール(例えば、ピック、プレース、リリース)と対話する。
プレートの横にあるマグカップを配置する」などの正確な空間配置のために、別個のサブプロンプティングモジュールは、オブジェクトの幾何学とシーンレイアウトに基づいて3D推論を処理する。
このシステムはオブジェクト検出とポーズ推定のためにYOLOX-GDRNetとモーション実行スタブを統合している。
簡単な空間コマンドから高レベルの命令,実現不可能な要求まで,24のテストシナリオでシステムを評価した。
システム全体のタスク成功率は86%に達した。
関連論文リスト
- Improving Generalization of Language-Conditioned Robot Manipulation [29.405161073483175]
いくつかの実演からオブジェクトアレンジメントタスクを学習するフレームワークを提案する。
シミュレーション環境と実世界のロボット環境の両方において,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-08-04T13:29:26Z) - RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [59.9896841079005]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - Ground Manipulator Primitive Tasks to Executable Actions using Large
Language Models [13.827349677538352]
大規模言語モデル(LLM)を用いた低レベル動作ロボットのためのマニピュレータ・プリミティブ・タスクを基礎とする新しい手法を提案する。
このようにして、LLMはハイブリッド制御のための位置/力のセットポイントを生成することができる。
論文 参考訳(メタデータ) (2023-08-13T16:52:36Z) - SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-07-12T12:37:55Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。