論文の概要: NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning
- arxiv url: http://arxiv.org/abs/2602.20119v1
- Date: Mon, 23 Feb 2026 18:35:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.94937
- Title: NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning
- Title(参考訳): NovaPlan: クローズドループビデオ言語計画によるゼロショットロング水平操作
- Authors: Jiahui Fu, Junyu Nan, Lingfeng Sun, Hongyu Li, Jianing Qian, Jennifer L. Barry, Kris Kitani, George Konidaris,
- Abstract要約: クローズドループVLMとビデオプランニングを統合した階層型フレームワークであるNovaPlanを紹介する。
高いレベルでは、VLMプランナーはタスクをサブゴールに分解し、クローズドループでロボットの実行を監視する。
低レベルのロボット動作を計算するために,タスク関連オブジェクトキーポイントと人手ポーズの両方を抽出し,活用する。
- 参考スコア(独自算出の注目度): 36.20611975009607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving long-horizon tasks requires robots to integrate high-level semantic reasoning with low-level physical interaction. While vision-language models (VLMs) and video generation models can decompose tasks and imagine outcomes, they often lack the physical grounding necessary for real-world execution. We introduce NovaPlan, a hierarchical framework that unifies closed-loop VLM and video planning with geometrically grounded robot execution for zero-shot long-horizon manipulation. At the high level, a VLM planner decomposes tasks into sub-goals and monitors robot execution in a closed loop, enabling the system to recover from single-step failures through autonomous re-planning. To compute low-level robot actions, we extract and utilize both task-relevant object keypoints and human hand poses as kinematic priors from the generated videos, and employ a switching mechanism to choose the better one as a reference for robot actions, maintaining stable execution even under heavy occlusion or depth inaccuracy. We demonstrate the effectiveness of NovaPlan on three long-horizon tasks and the Functional Manipulation Benchmark (FMB). Our results show that NovaPlan can perform complex assembly tasks and exhibit dexterous error recovery behaviors without any prior demonstrations or training. Project page: https://nova-plan.github.io/
- Abstract(参考訳): 長距離タスクを解決するには、ロボットが低レベルな物理的相互作用に高レベルなセマンティック推論を統合する必要がある。
視覚言語モデル(VLM)とビデオ生成モデルはタスクを分解し、結果を想像できるが、実世界の実行に必要な物理的基盤を欠いていることが多い。
閉ループVLMとビデオプランニングを統合した階層的フレームワークであるNovaPlanを導入する。
高いレベルでは、VLMプランナーはタスクをサブゴールに分解し、クローズドループでロボットの実行を監視し、自律的な再計画を通じて単一ステップの障害から回復することができる。
低レベルのロボット動作を計算するために、生成したビデオからタスク関連オブジェクトキーポイントと人手ポーズの両方をキネマティック先行として抽出、利用し、ロボット動作の基準としてより良いものを選択するための切替機構を用いて、重閉塞や深度不正確性の下でも安定した実行を維持する。
我々は,NovaPlanが3つの長期タスクとFMB(Functional Manipulation Benchmark)に対して有効であることを示す。
以上の結果から,NovaPlanは複雑な組立タスクを実行し,事前のデモンストレーションやトレーニングを行なわずに,奇抜なエラー回復動作を示すことができることがわかった。
プロジェクトページ:https://nova-plan.github.io/
関連論文リスト
- Large Video Planner Enables Generalizable Robot Control [117.49024534548319]
汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。
最近の研究は、マルチモーダル大言語モデル(LM)をアクション出力で拡張し、視覚-アクション(VLA)システムを構築することで、ロボット基盤モデルを構築している。
本稿では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いるための代替パラダイムについて検討する。
論文 参考訳(メタデータ) (2025-12-17T18:35:54Z) - COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。
提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。
実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-23T15:53:41Z) - Wonderful Team: Zero-Shot Physical Task Planning with Visual LLMs [0.0]
Wonderful Teamは、ゼロショットでハイレベルなロボット計画を実行するためのフレームワークだ。
実世界のセマンティックおよび物理的計画タスクにおけるWonderful Teamのパフォーマンスは、しばしば別々のビジョンシステムに依存するメソッドを超えることが示される。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment [10.322491116030825]
DoReMiは、計画と実行間のミスアライメントの検出とリカバリを可能にする。
パイプラインは、低レベルの実行を監視し、特定の計画実行ミスアライメントが発生した場合、タイムリなリカバリを可能にします。
論文 参考訳(メタデータ) (2023-07-01T12:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。