論文の概要: Grounded Vision-Language Interpreter for Integrated Task and Motion Planning
- arxiv url: http://arxiv.org/abs/2506.03270v1
- Date: Tue, 03 Jun 2025 18:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.991731
- Title: Grounded Vision-Language Interpreter for Integrated Task and Motion Planning
- Title(参考訳): 統合作業と運動計画のための接地型視覚言語解釈
- Authors: Jeremy Siburian, Keisuke Shirai, Cristian C. Beltran-Hernandez, Masashi Hamaya, Michael Görner, Atsushi Hashimoto,
- Abstract要約: ViLaIn-TAMPは、検証可能、解釈可能、自律的なロボット動作を可能にするためのハイブリッドな計画フレームワークである。
ViLaIn-TAMPは、(1) ViLaIn (Vision-Language Interpreter) - 追加のドメイン固有の訓練なしに、既製のVLMを使用して、マルチモーダル入力を構造化された問題仕様に変換する以前のフレームワーク、(2) モジュール化されたタスク・アンド・モーション・プランニング(TAMP)システム、(2) シンボル的および幾何学的制約推論を通じて、これらの仕様を実行可能なトラジェクティブ・シーケンスに基礎を置く、(3) 動作およびタスク計画コンポーネントからの失敗ソリューションの具体的なフィードバックを受け、適応されたロジックを供給できる修正計画モジュールである。
- 参考スコア(独自算出の注目度): 9.672301008147826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent advances in vision-language models (VLMs) have accelerated the development of language-guided robot planners, their black-box nature often lacks safety guarantees and interpretability crucial for real-world deployment. Conversely, classical symbolic planners offer rigorous safety verification but require significant expert knowledge for setup. To bridge the current gap, this paper proposes ViLaIn-TAMP, a hybrid planning framework for enabling verifiable, interpretable, and autonomous robot behaviors. ViLaIn-TAMP comprises three main components: (1) ViLaIn (Vision-Language Interpreter) - A prior framework that converts multimodal inputs into structured problem specifications using off-the-shelf VLMs without additional domain-specific training, (2) a modular Task and Motion Planning (TAMP) system that grounds these specifications in actionable trajectory sequences through symbolic and geometric constraint reasoning and can utilize learning-based skills for key manipulation phases, and (3) a corrective planning module which receives concrete feedback on failed solution attempts from the motion and task planning components and can feed adapted logic and geometric feasibility constraints back to ViLaIn to improve and further refine the specification. We evaluate our framework on several challenging manipulation tasks in a cooking domain. We demonstrate that the proposed closed-loop corrective architecture exhibits a more than 30% higher mean success rate for ViLaIn-TAMP compared to without corrective planning.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩は、言語誘導型ロボットプランナーの開発を加速させているが、そのブラックボックスの性質は、現実世界の展開に不可欠な安全性と解釈性に欠けることが多い。
逆に、古典的シンボリックプランナーは厳格な安全性検証を提供するが、セットアップにはかなりの専門知識が必要である。
このギャップを埋めるため,本研究では,検証,解釈,自律的なロボット動作を実現するためのハイブリッド計画フレームワークであるViLaIn-TAMPを提案する。
ViLaIn-TAMP は、(1) ViLaIn (Vision-Language Interpreter) - マルチモーダル入力を、追加のドメイン固有のトレーニングなしに、既製のVLMを使用して構造化された問題仕様に変換する以前のフレームワーク、(2) モジュール化されたタスク・アンド・モーション・プランニング (TAMP) システム、(2) これらの仕様を、記号的および幾何学的制約推論を通じて実行可能なトラジェクトリ・シーケンスを基盤として、キー操作フェーズの学習ベースのスキルを活用できる、(3) 動作とタスク計画コンポーネントから失敗したソリューションの試行に対して具体的なフィードバックを受け、適応された論理的および幾何学的実現可能性の制約を ViLaIn にフィードバックし、仕様を洗練させるための修正計画モジュールである。
調理領域におけるいくつかの困難な操作課題について,本フレームワークの評価を行った。
提案した閉ループ補正アーキテクチャでは,ViLaIn-TAMPの平均成功率が30%以上高いことが実証された。
関連論文リスト
- REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。
ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文 参考訳(メタデータ) (2025-03-28T03:51:40Z) - General-Purpose Aerial Intelligent Agents Empowered by Large Language Models [9.603293922137965]
本稿では,オープンワールドタスク実行が可能な,初の航空知的エージェントを提案する。
私たちのハードウェアとソフトウェアの共同設計システムは、2つの基本的な制限に対処します。
本システムは,コミュニケーション制約のある環境におけるタスク計画とシーン理解の信頼性を示す。
論文 参考訳(メタデータ) (2025-03-11T11:13:58Z) - Ontology-driven Prompt Tuning for LLM-based Task and Motion Planning [0.20940572815908076]
タスク・アンド・モーション・プランニング(TAMP)アプローチは、ハイレベルなシンボリック・プランと低レベルなモーション・プランニングを組み合わせたものである。
LLMは、タスクを記述するための直感的で柔軟な方法として自然言語を提供することによって、タスク計画を変える。
本研究は、知識に基づく推論を用いてユーザプロンプトを洗練・拡張する新しいプロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T13:18:45Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning [78.2390460278551]
従来のタスク・アンド・モーション・プランニング(TAMP)アプローチは、シンボル的タスク・プランニングと連続的なモーション・ジェネレーションを結びつける手作業によるインタフェースに依存している。
本稿では,ドメインに依存しないインターフェースを備えたLarge Language Model (LLM) ベースの TAMP フレームワーク LLM3 を提案する。
具体的には、事前学習したLLMの強力な推論と計画能力を活用して、シンボル的なアクションシーケンスを提案し、動作計画のための連続的なアクションパラメータを選択する。
論文 参考訳(メタデータ) (2024-03-18T08:03:47Z) - Introspective Planning: Aligning Robots' Uncertainty with Inherent Task Ambiguity [0.659529078336196]
大規模言語モデル(LLM)は高度な推論能力を示し、ロボットが自然言語の指示を理解し、高レベルの行動を戦略的に計画することを可能にする。
LLMの幻覚は、ロボットがユーザー目標と不一致の計画を実行したり、クリティカルなシナリオでは安全でないりする可能性がある。
本稿では,LLMの不確かさとタスク固有のあいまいさを一致させる系統的手法であるイントロスペクティブプランニングを提案する。
論文 参考訳(メタデータ) (2024-02-09T16:40:59Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。