論文の概要: Grounded Vision-Language Interpreter for Integrated Task and Motion Planning
- arxiv url: http://arxiv.org/abs/2506.03270v2
- Date: Tue, 04 Nov 2025 06:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 20:56:28.984639
- Title: Grounded Vision-Language Interpreter for Integrated Task and Motion Planning
- Title(参考訳): 統合作業と運動計画のための接地型視覚言語解釈
- Authors: Jeremy Siburian, Keisuke Shirai, Cristian C. Beltran-Hernandez, Masashi Hamaya, Michael Görner, Atsushi Hashimoto,
- Abstract要約: ViLaIn-TAMPは、検証可能、解釈可能、自律的なロボット動作を可能にするためのハイブリッドな計画フレームワークである。
ViLaIn-TAMPは、(1)マルチモーダル入力を構造化された問題仕様に変換する以前の作業から適応したビジョン・ランゲージ・インタプリタ(ViLaIn)、(2)これらの仕様を実行可能なトラジェクトリシーケンスで基盤とするモジュール型タスク・アンド・モーション・プランニング(TAMP)システム、(3)失敗する解決の試みに対して具体的なフィードバックを受け取る修正計画モジュールの3つの主要コンポーネントから構成される。
- 参考スコア(独自算出の注目度): 11.556939265977762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent advances in vision-language models have accelerated the development of language-guided robot planners, their black-box nature often lacks safety guarantees and interpretability crucial for real-world deployment. Conversely, classical symbolic planners offer rigorous safety verification but require significant expert knowledge for setup. To bridge the current gap, this paper proposes ViLaIn-TAMP, a hybrid planning framework for enabling verifiable, interpretable, and autonomous robot behaviors. ViLaIn-TAMP comprises three main components: (1) a Vision-Language Interpreter (ViLaIn) adapted from previous work that converts multimodal inputs into structured problem specifications, (2) a modular Task and Motion Planning (TAMP) system that grounds these specifications in actionable trajectory sequences through symbolic and geometric constraint reasoning, and (3) a corrective planning (CP) module which receives concrete feedback on failed solution attempts and feed them with constraints back to ViLaIn to refine the specification. We design challenging manipulation tasks in a cooking domain and evaluate our framework. Experimental results demonstrate that ViLaIn-TAMP outperforms a VLM-as-a-planner baseline by 18% in mean success rate, and that adding the CP module boosts mean success rate by 32%.
- Abstract(参考訳): 近年の視覚言語モデルの進歩は、言語誘導型ロボットプランナーの開発を加速させているが、そのブラックボックスの性質は、現実世界の展開に不可欠な安全性と解釈性に欠けることが多い。
逆に、古典的シンボリックプランナーは厳格な安全性検証を提供するが、セットアップにはかなりの専門知識が必要である。
このギャップを埋めるため,本研究では,検証,解釈,自律的なロボット動作を実現するためのハイブリッド計画フレームワークであるViLaIn-TAMPを提案する。
ViLaIn-TAMPは、(1)マルチモーダル入力を構造化された問題仕様に変換する以前の作業から適応したビジョンランゲージ・インタプリタ(ViLaIn)、(2)シンボル的および幾何学的制約推論を通じてこれらの仕様を実行可能なトラジェクトリシーケンスで基盤とするモジュラータスク・アンド・モーション・プランニング(TAMP)システム、(3)失敗する解決の試みに対して具体的なフィードバックを受け、ViLaInに制約を与えて仕様を洗練させる修正計画(CP)モジュールである。
我々は、調理領域における困難な操作タスクを設計し、フレームワークを評価する。
実験の結果, ViLaIn-TAMPはVLM-as-a-plannerベースラインを平均成功率で18%, CPモジュールの追加で平均成功率を32%向上させることがわかった。
関連論文リスト
- LLaPa: A Vision-Language Model Framework for Counterfactual-Aware Procedural Planning [26.098281158573748]
マルチモーダルな手続き計画のための視覚言語モデルフレームワークであるLLaPaを紹介する。
LLaPaはテキストタスク記述と視覚環境画像から実行可能なアクションシーケンスを生成する。
手続き計画を改善するために,LLaPaを2つの補助モジュールで拡張する。
論文 参考訳(メタデータ) (2025-07-11T11:18:49Z) - VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [44.99833362998488]
本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。
このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。
我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
論文 参考訳(メタデータ) (2025-07-07T15:31:36Z) - Grounding Language Models with Semantic Digital Twins for Robotic Planning [6.474368392218828]
セマンティック・デジタル・ツインズ(SDT)とLarge Language Models(LLM)を統合する新しいフレームワークを提案する。
提案フレームワークは,高レベル推論とセマンティック環境理解を効果的に組み合わせ,不確実性と障害に直面した信頼性の高いタスク完了を実現する。
論文 参考訳(メタデータ) (2025-06-19T17:38:00Z) - RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [80.20970723577818]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。
ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文 参考訳(メタデータ) (2025-03-28T03:51:40Z) - General-Purpose Aerial Intelligent Agents Empowered by Large Language Models [9.603293922137965]
本稿では,オープンワールドタスク実行が可能な,初の航空知的エージェントを提案する。
私たちのハードウェアとソフトウェアの共同設計システムは、2つの基本的な制限に対処します。
本システムは,コミュニケーション制約のある環境におけるタスク計画とシーン理解の信頼性を示す。
論文 参考訳(メタデータ) (2025-03-11T11:13:58Z) - Ontology-driven Prompt Tuning for LLM-based Task and Motion Planning [0.20940572815908076]
タスク・アンド・モーション・プランニング(TAMP)アプローチは、ハイレベルなシンボリック・プランと低レベルなモーション・プランニングを組み合わせたものである。
LLMは、タスクを記述するための直感的で柔軟な方法として自然言語を提供することによって、タスク計画を変える。
本研究は、知識に基づく推論を用いてユーザプロンプトを洗練・拡張する新しいプロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T13:18:45Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning [78.2390460278551]
従来のタスク・アンド・モーション・プランニング(TAMP)アプローチは、シンボル的タスク・プランニングと連続的なモーション・ジェネレーションを結びつける手作業によるインタフェースに依存している。
本稿では,ドメインに依存しないインターフェースを備えたLarge Language Model (LLM) ベースの TAMP フレームワーク LLM3 を提案する。
具体的には、事前学習したLLMの強力な推論と計画能力を活用して、シンボル的なアクションシーケンスを提案し、動作計画のための連続的なアクションパラメータを選択する。
論文 参考訳(メタデータ) (2024-03-18T08:03:47Z) - Introspective Planning: Aligning Robots' Uncertainty with Inherent Task Ambiguity [0.659529078336196]
大規模言語モデル(LLM)は高度な推論能力を示し、ロボットが自然言語の指示を理解し、高レベルの行動を戦略的に計画することを可能にする。
LLMの幻覚は、ロボットがユーザー目標と不一致の計画を実行したり、クリティカルなシナリオでは安全でないりする可能性がある。
本稿では,LLMの不確かさとタスク固有のあいまいさを一致させる系統的手法であるイントロスペクティブプランニングを提案する。
論文 参考訳(メタデータ) (2024-02-09T16:40:59Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。