論文の概要: Spatially Grounded Long-Horizon Task Planning in the Wild
- arxiv url: http://arxiv.org/abs/2603.13433v1
- Date: Fri, 13 Mar 2026 05:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.201403
- Title: Spatially Grounded Long-Horizon Task Planning in the Wild
- Title(参考訳): 野生における空間的接地型長距離タスクプランニング
- Authors: Sehun Jung, HyunJee Song, Dong-Hee Kim, Reuben Tan, Jianfeng Gao, Yong Jae Lee, Donghyun Kim,
- Abstract要約: GroundedPlanBenchは、空間的に接地された長距離行動計画のための新しいベンチマークである。
Video-to-Spatially Grounded Planning (V2GP)は、現実のロボットビデオのデモを活用して、空間的地平面の長期計画を改善する自動データ生成フレームワークである。
- 参考スコア(独自算出の注目度): 49.614308474374035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in robot manipulation increasingly leverage Vision-Language Models (VLMs) for high-level reasoning, such as decomposing task instructions into sequential action plans expressed in natural language that guide downstream low-level motor execution. However, current benchmarks do not assess whether these plans are spatially executable, particularly in specifying the exact spatial locations where the robot should interact to execute the plan, limiting evaluation of real-world manipulation capability. To bridge this gap, we define a novel task of grounded planning and introduce GroundedPlanBench, a newly curated benchmark for spatially grounded long-horizon action planning in the wild. GroundedPlanBench jointly evaluates hierarchical sub-action planning and spatial action grounding (where to act), enabling systematic assessment of whether generated sub-actions are spatially executable for robot manipulation. We further introduce Video-to-Spatially Grounded Planning (V2GP), an automated data generation framework that leverages real-world robot video demonstrations to improve spatially grounded long-horizon planning. Our evaluations reveal that spatially grounded long-horizon planning remains a major bottleneck for current VLMs. Our results demonstrate that V2GP provides a promising approach for improving both action planning and spatial grounding performance, validated on our benchmark as well as through real-world robot manipulation experiments, advancing progress toward spatially actionable planning.
- Abstract(参考訳): ロボット操作の最近の進歩は、下流の低レベルモーター実行を導く自然言語で表されるシーケンシャルなアクションプランにタスク命令を分解するなど、高レベル推論にビジョンランゲージモデル(VLM)をますます活用している。
しかしながら、現在のベンチマークでは、これらの計画が空間的に実行可能かどうかを評価せず、特に、ロボットが計画を実行するために対話すべき正確な空間位置を指定し、実際の操作能力の評価を制限する。
このギャップを埋めるために,グラウンドドプランニングという新しいタスクを定義し,空間的にグラウンドドされたロングホライゾンアクションプランニングのための新しいベンチマークであるGroundedPlanBenchを導入する。
GroundedPlanBenchは階層的なサブアクション計画と空間的なアクショングラウンド(動作場所)を共同で評価し、生成されたサブアクションが空間的に操作可能かどうかを体系的に評価する。
さらに、実世界のロボットによるビデオデモを活用し、空間的地平面計画を改善する自動データ生成フレームワークであるV2GP(Video-to-Spatially Grounded Planning)を紹介した。
評価の結果,空間的背景を持つ長軸計画が現在のVLMのボトルネックとなっていることが明らかとなった。
この結果から, V2GPは, 実世界のロボット操作実験を通じて, 行動計画と空間的接地性能の両立に有望なアプローチを提供することを示す。
関連論文リスト
- Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation [50.406803870992974]
Plan-MCTSは、探索を意味的なPlan Spaceに移行することでWebナビゲーションを再構築するフレームワークである。
Plan-MCTSは最先端の性能を達成し、タスク効率と探索効率を向上した現在の手法を超越している。
論文 参考訳(メタデータ) (2026-02-15T10:24:45Z) - Grounding Generated Videos in Feasible Plans via World Models [52.63206803295352]
Grounding Video Plans with World Models (GVP-WM) は、ビデオ生成したプランを実行可能なアクションシーケンスに変換するための計画手法である。
GVP-WMはまず、最初の観測とゴール観測からビデオプランを生成し、次に動的に実現可能な潜在軌道の多様体にビデオガイダンスを投影する。
論文 参考訳(メタデータ) (2026-02-02T11:04:47Z) - Spatial Policy: Guiding Visuomotor Robotic Manipulation with Spatial-Aware Modeling and Reasoning [43.35947581429867]
視覚中心の階層型エンボディードモデルは、長距離ロボット制御に強い可能性を示している。
既存の方法は空間認識能力に欠けており、複雑な環境下での行動可能な制御に視覚計画をブリッジする際の有効性を制限している。
本研究では,空間モデルと推論を用いた空間認識型ロボット操作フレームワークである空間ポリシー(SP)を提案する。
論文 参考訳(メタデータ) (2025-08-21T10:24:18Z) - Gondola: Grounded Vision Language Planning for Generalizable Robotic Manipulation [62.711546725154314]
一般化可能なロボット操作のための大規模言語モデル(LLM)に基づく基盤的視覚言語計画モデルであるゴンドラについて紹介する。
G Gondola氏はマルチビューイメージとヒストリプランを使って、インターリーブされたテキストとターゲットオブジェクトとロケーションのセグメンテーションマスクを備えた次のアクションプランを作成する。
G Gondolaは、GemBenchデータセットの4つのレベルすべてにわたって、最先端のLCMベースのメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-06-12T20:04:31Z) - Efficient Robotic Policy Learning via Latent Space Backward Planning [17.770562202624962]
現行のロボット計画手法は、しばしば、全画素の詳細を持つ多フレーム画像の予測に頼っている。
本稿では,その課題を最終目標とするLBP(Latent Space Backward Planning scheme)を提案する。
LBPは既存の細粒度・前方計画法よりも優れた性能を示し,SOTA性能を実現している。
論文 参考訳(メタデータ) (2025-05-11T06:13:51Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z) - Leveraging Scene Embeddings for Gradient-Based Motion Planning in Latent
Space [24.95320093765214]
AMP-LSは、従来の計画ベースラインを桁違いの速度で上回りながら、新しい複雑なシーンで計画できる。
実世界の動的シーンにおける閉ループ計画を実現するのに十分な速度が得られた。
論文 参考訳(メタデータ) (2023-03-06T18:49:39Z) - Large-scale Autonomous Flight with Real-time Semantic SLAM under Dense
Forest Canopy [48.51396198176273]
本研究では,大規模自律飛行とリアルタイムセマンティックマッピングを,挑戦的なアンダーキャノピー環境下で実現可能な統合システムを提案する。
我々は、スキャン全体で関連付けられ、木のトランクモデルと同様にロボットのポーズを制約するために使用されるLiDARデータから、木の幹と地面の平面を検出し、モデル化する。
ドリフト補償機構は、プランナー最適性とコントローラ安定性を維持しつつ、セマンティックSLAM出力を用いたドリフトをリアルタイムで最小化するように設計されている。
論文 参考訳(メタデータ) (2021-09-14T07:24:53Z) - Latent Space Roadmap for Visual Action Planning of Deformable and Rigid
Object Manipulation [74.88956115580388]
プランニングは、イメージを埋め込んだ低次元の潜在状態空間で行われる。
我々のフレームワークは2つの主要なコンポーネントで構成されており、画像のシーケンスとして視覚的な計画を生成するビジュアル・フォレスト・モジュール(VFM)と、それら間のアクションを予測するアクション・プロポーザル・ネットワーク(APN)である。
論文 参考訳(メタデータ) (2020-03-19T18:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。