Fugu-MT 論文翻訳(概要): NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

論文の概要: NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

arxiv url: http://arxiv.org/abs/2602.20119v1
Date: Mon, 23 Feb 2026 18:35:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.94937
Title: NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning
Title（参考訳）: NovaPlan: クローズドループビデオ言語計画によるゼロショットロング水平操作
Authors: Jiahui Fu, Junyu Nan, Lingfeng Sun, Hongyu Li, Jianing Qian, Jennifer L. Barry, Kris Kitani, George Konidaris,
Abstract要約: クローズドループVLMとビデオプランニングを統合した階層型フレームワークであるNovaPlanを紹介する。高いレベルでは、VLMプランナーはタスクをサブゴールに分解し、クローズドループでロボットの実行を監視する。低レベルのロボット動作を計算するために,タスク関連オブジェクトキーポイントと人手ポーズの両方を抽出し,活用する。
参考スコア（独自算出の注目度）: 36.20611975009607
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Solving long-horizon tasks requires robots to integrate high-level semantic reasoning with low-level physical interaction. While vision-language models (VLMs) and video generation models can decompose tasks and imagine outcomes, they often lack the physical grounding necessary for real-world execution. We introduce NovaPlan, a hierarchical framework that unifies closed-loop VLM and video planning with geometrically grounded robot execution for zero-shot long-horizon manipulation. At the high level, a VLM planner decomposes tasks into sub-goals and monitors robot execution in a closed loop, enabling the system to recover from single-step failures through autonomous re-planning. To compute low-level robot actions, we extract and utilize both task-relevant object keypoints and human hand poses as kinematic priors from the generated videos, and employ a switching mechanism to choose the better one as a reference for robot actions, maintaining stable execution even under heavy occlusion or depth inaccuracy. We demonstrate the effectiveness of NovaPlan on three long-horizon tasks and the Functional Manipulation Benchmark (FMB). Our results show that NovaPlan can perform complex assembly tasks and exhibit dexterous error recovery behaviors without any prior demonstrations or training. Project page: https://nova-plan.github.io/
Abstract（参考訳）: 長距離タスクを解決するには、ロボットが低レベルな物理的相互作用に高レベルなセマンティック推論を統合する必要がある。視覚言語モデル(VLM)とビデオ生成モデルはタスクを分解し、結果を想像できるが、実世界の実行に必要な物理的基盤を欠いていることが多い。閉ループVLMとビデオプランニングを統合した階層的フレームワークであるNovaPlanを導入する。高いレベルでは、VLMプランナーはタスクをサブゴールに分解し、クローズドループでロボットの実行を監視し、自律的な再計画を通じて単一ステップの障害から回復することができる。低レベルのロボット動作を計算するために、生成したビデオからタスク関連オブジェクトキーポイントと人手ポーズの両方をキネマティック先行として抽出、利用し、ロボット動作の基準としてより良いものを選択するための切替機構を用いて、重閉塞や深度不正確性の下でも安定した実行を維持する。我々は,NovaPlanが3つの長期タスクとFMB(Functional Manipulation Benchmark)に対して有効であることを示す。以上の結果から,NovaPlanは複雑な組立タスクを実行し,事前のデモンストレーションやトレーニングを行なわずに,奇抜なエラー回復動作を示すことができることがわかった。プロジェクトページ:https://nova-plan.github.io/

関連論文リスト

Large Video Planner Enables Generalizable Robot Control [117.49024534548319]
汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。最近の研究は、マルチモーダル大言語モデル(LM)をアクション出力で拡張し、視覚-アクション(VLA)システムを構築することで、ロボット基盤モデルを構築している。本稿では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いるための代替パラダイムについて検討する。
論文参考訳（メタデータ） (2025-12-17T18:35:54Z)
LLM+MAP: Bimanual Robot Task Planning using Large Language Models and Planning Domain Definition Language [17.914580097058106]
両手間の空間的・時間的調整が複雑になるため、両手操作は固有の課題となる。既存の作業は主に、ロボットハンドのための人間レベルの操作スキルの獲得に重点を置いているが、長い時間軸でのタスクプランニングにはほとんど関心が払われていない。本稿では,LLM推論とマルチエージェント計画を統合した双方向計画フレームワークであるLLM+MAPを紹介する。
論文参考訳（メタデータ） (2025-03-21T17:04:01Z)
COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2024-09-23T15:53:41Z)
Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。 CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文参考訳（メタデータ） (2024-09-02T15:27:48Z)
Wonderful Team: Zero-Shot Physical Task Planning with Visual LLMs [0.0]
Wonderful Teamは、ゼロショットでハイレベルなロボット計画を実行するためのフレームワークだ。実世界のセマンティックおよび物理的計画タスクにおけるWonderful Teamのパフォーマンスは、しばしば別々のビジョンシステムに依存するメソッドを超えることが示される。
論文参考訳（メタデータ） (2024-07-26T21:18:57Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。 PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文参考訳（メタデータ） (2024-05-02T17:59:31Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Ground Manipulator Primitive Tasks to Executable Actions using Large Language Models [13.827349677538352]
大規模言語モデル(LLM)を用いた低レベル動作ロボットのためのマニピュレータ・プリミティブ・タスクを基礎とする新しい手法を提案する。このようにして、LLMはハイブリッド制御のための位置/力のセットポイントを生成することができる。
論文参考訳（メタデータ） (2023-08-13T16:52:36Z)
DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment [10.322491116030825]
DoReMiは、計画と実行間のミスアライメントの検出とリカバリを可能にする。パイプラインは、低レベルの実行を監視し、特定の計画実行ミスアライメントが発生した場合、タイムリなリカバリを可能にします。
論文参考訳（メタデータ） (2023-07-01T12:51:02Z)
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文参考訳（メタデータ） (2022-09-22T20:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。