論文の概要: UniPlan: Vision-Language Task Planning for Mobile Manipulation with Unified PDDL Formulation
- arxiv url: http://arxiv.org/abs/2602.08537v1
- Date: Mon, 09 Feb 2026 11:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.282902
- Title: UniPlan: Vision-Language Task Planning for Mobile Manipulation with Unified PDDL Formulation
- Title(参考訳): UniPlan:統一PDDL定式化によるモバイル操作のためのビジョンランゲージタスクプランニング
- Authors: Haoming Ye, Yunxiao Xiao, Cewu Lu, Panpan Cai,
- Abstract要約: UniPlanは、大規模屋内環境における移動操作のための視覚タスク計画システムである。
シーントポロジ、視覚、ロボットの能力を総合的なPDDL表現に統一する。
VLM と LLM+DL の計画成功率、計画品質、計算効率を大きく上回る。
- 参考スコア(独自算出の注目度): 44.71201089970223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integration of VLM reasoning with symbolic planning has proven to be a promising approach to real-world robot task planning. Existing work like UniDomain effectively learns symbolic manipulation domains from real-world demonstrations, described in Planning Domain Definition Language (PDDL), and has successfully applied them to real-world tasks. These domains, however, are restricted to tabletop manipulation. We propose UniPlan, a vision-language task planning system for long-horizon mobile-manipulation in large-scale indoor environments, that unifies scene topology, visuals, and robot capabilities into a holistic PDDL representation. UniPlan programmatically extends learned tabletop domains from UniDomain to support navigation, door traversal, and bimanual coordination. It operates on a visual-topological map, comprising navigation landmarks anchored with scene images. Given a language instruction, UniPlan retrieves task-relevant nodes from the map and uses a VLM to ground the anchored image into task-relevant objects and their PDDL states; next, it reconnects these nodes to a compressed, densely-connected topological map, also represented in PDDL, with connectivity and costs derived from the original map; Finally, a mobile-manipulation plan is generated using off-the-shelf PDDL solvers. Evaluated on human-raised tasks in a large-scale map with real-world imagery, UniPlan significantly outperforms VLM and LLM+PDDL planning in success rate, plan quality, and computational efficiency.
- Abstract(参考訳): VLM推論とシンボル計画の統合は、現実のロボットタスク計画において有望なアプローチであることが証明されている。
UniDomainのような既存の作業は、計画的ドメイン定義言語(PDDL)に記述されている実世界の実証から象徴的な操作ドメインを効果的に学習し、それらを実世界のタスクに適用することに成功しました。
しかし、これらのドメインはテーブルトップ操作に限定されている。
大規模屋内環境における長距離移動操作のための視覚言語タスクプランニングシステムUniPlanを提案し,シーントポロジ,視覚,ロボットの能力を総合的なPDDL表現に統一する。
UniPlanは、UniDomainから学んだテーブルトップドメインを拡張して、ナビゲーション、ドアトラバーサル、双方向調整をサポートする。
視覚トポロジカルマップで動作し、シーンイメージに固定されたナビゲーションランドマークで構成されている。
言語命令が与えられた場合、UniPlanは、地図からタスク関連ノードを取得し、VLMを使用して、アンカーされたイメージをタスク関連オブジェクトとそのPDDL状態にグラウンドする。
実世界の画像を持つ大規模地図における人為的タスクの評価を行い、UniPlanは成功率、計画品質、計算効率において、VLMとLLM+PDDL計画を大幅に上回っている。
関連論文リスト
- Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams [11.964765256346857]
不均質なマルチロボットシステムのための長期タスクプランニングは、実環境における協調チームの配置に不可欠である。
自然言語命令からタスク関連問題表現をコンパクトに生成する,スケーラブルなLLM支援フレームワークであるScale-Planを提案する。
計画に先立って無関係な情報をフィルタリングすることにより、スケールプランは効率的な分解、割り当て、長期計画生成を可能にします。
論文 参考訳(メタデータ) (2026-03-09T18:13:18Z) - PSALM-V: Automating Symbolic Planning in Interactive Visual Environments with Large Language Models [22.688086293676328]
視覚環境における象徴的行動意味論(プレコンディションとポストコンディション)を誘導できる最初の自律型ニューロシンボリック学習システムPSALM-Vを提案する。
PSALM-Vは、専門家のアクション定義なしで信頼できるシンボリックプランニングを行い、LSMを使って計画と候補シンボリックセマンティクスを生成する。
論文 参考訳(メタデータ) (2025-06-25T02:44:20Z) - Gondola: Grounded Vision Language Planning for Generalizable Robotic Manipulation [62.711546725154314]
一般化可能なロボット操作のための大規模言語モデル(LLM)に基づく基盤的視覚言語計画モデルであるゴンドラについて紹介する。
G Gondola氏はマルチビューイメージとヒストリプランを使って、インターリーブされたテキストとターゲットオブジェクトとロケーションのセグメンテーションマスクを備えた次のアクションプランを作成する。
G Gondolaは、GemBenchデータセットの4つのレベルすべてにわたって、最先端のLCMベースのメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-06-12T20:04:31Z) - Planning with Vision-Language Models and a Use Case in Robot-Assisted Teaching [0.9217021281095907]
本稿では、視覚言語モデル(VLM)を利用して、初期状態の画像や目標状態の記述を自動的にPDDL問題に変換する新しいフレームワークであるImage2PDDLを紹介する。
ブロックワールドやスライディングタイルパズルのような標準的な計画領域を含む,さまざまな領域におけるフレームワークの評価を,複数の難易度を持つデータセットを用いて行う。
本稿では,自閉症スペクトラム障害児のロボット支援教育における可能性について論じる。
論文 参考訳(メタデータ) (2025-01-29T14:04:54Z) - DKPROMPT: Domain Knowledge Prompting Vision-Language Models for Open-World Planning [9.31108717722043]
視覚言語モデル(VLM)はロボットのタスク計画問題に適用されている。
DKPROMPTは、オープンワールドにおける古典的計画のためのPDDLにおけるドメイン知識の利用を促すVLMを自動化する。
論文 参考訳(メタデータ) (2024-06-25T15:49:47Z) - PDDLEGO: Iterative Planning in Textual Environments [56.12148805913657]
テキスト環境における計画は、現在のモデルにおいても長年にわたる課題であることが示されている。
我々は,あるサブゴールの部分的な計画に導く計画表現を反復的に構築するPDDLEGOを提案する。
数ショットのPDDLEGOで作成するプランは,Coin Collectorシミュレーションでエンドツーエンドのプランを生成するよりも43%効率がよいことを示す。
論文 参考訳(メタデータ) (2024-05-30T08:01:20Z) - Long-Horizon Planning and Execution with Functional Object-Oriented
Networks [79.94575713911189]
タスク計画と実行のためのFOONとしてオブジェクトレベルの知識を活用するというアイデアを紹介します。
提案手法では,FOONをPDDLに自動変換し,市販のプランナ,アクションコンテキスト,ロボットスキルを活用する。
我々はCoppeliaSimの長期タスクに対するアプローチを実証し、学習されたアクションコンテキストを、これまで見たことのないシナリオにどのように拡張できるかを示す。
論文 参考訳(メタデータ) (2022-07-12T19:29:35Z) - Online Grounding of PDDL Domains by Acting and Sensing in Unknown
Environments [62.11612385360421]
本稿では,エージェントが異なるタスクを実行できるフレームワークを提案する。
機械学習モデルを統合して、感覚データを抽象化し、目標達成のためのシンボリックプランニング、ナビゲーションのためのパスプランニングを行う。
提案手法を,RGB-Dオンボードカメラ,GPS,コンパスなど,正確なシミュレーション環境で評価する。
論文 参考訳(メタデータ) (2021-12-18T21:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。