論文の概要: Beyond Dense Futures: World Models as Structured Planners for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2603.12553v1
- Date: Fri, 13 Mar 2026 01:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.833092
- Title: Beyond Dense Futures: World Models as Structured Planners for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための構造化プランナーとしての世界モデル
- Authors: Minghao Jin, Mozheng Liao, Mingfei Han, Zhihui Li, Xiaojun Chang,
- Abstract要約: 本稿では、生成的世界モデルを信頼性制御のための明示的な構造化プランナーに再構成するStructVLAを提案する。
我々はこの手法を,個別のトークン語彙を統一した2段階の訓練パラダイムを用いて実装する。
我々の実験では、StructVLAはSimplerEnv-WidowXで75.0%、LIBEROで94.8%という高い平均成功率を達成した。
- 参考スコア(独自算出の注目度): 43.5447478385855
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent world-model-based Vision-Language-Action (VLA) architectures have improved robotic manipulation through predictive visual foresight. However, dense future prediction introduces visual redundancy and accumulates errors, causing long-horizon plan drift. Meanwhile, recent sparse methods typically represent visual foresight using high-level semantic subtasks or implicit latent states. These representations often lack explicit kinematic grounding, weakening the alignment between planning and low-level execution. To address this, we propose StructVLA, which reformulates a generative world model into an explicit structured planner for reliable control. Instead of dense rollouts or semantic goals, StructVLA predicts sparse, physically meaningful structured frames. Derived from intrinsic kinematic cues (e.g., gripper transitions and kinematic turning points), these frames capture spatiotemporal milestones closely aligned with task progress. We implement this approach through a two-stage training paradigm with a unified discrete token vocabulary: the world model is first trained to predict structured frames and subsequently optimized to map the structured foresight into low-level actions. This approach provides clear physical guidance and bridges visual planning and motion control. In our experiments, StructVLA achieves strong average success rates of 75.0% on SimplerEnv-WidowX and 94.8% on LIBERO. Real-world deployments further demonstrate reliable task completion and robust generalization across both basic pick-and-place and complex long-horizon tasks.
- Abstract(参考訳): 近年のVLA(Vision-Language-Action)アーキテクチャは,視覚の予測によるロボット操作を改善している。
しかし、将来予測は視覚的冗長性を導入し、エラーを蓄積し、長期計画の漂流を引き起こす。
一方、近年のスパース法は、高レベルのセマンティック・サブタスクや暗黙の潜伏状態を用いて視覚的視力を表すのが一般的である。
これらの表現は、しばしば明示的なキネマティックな基盤を欠き、計画と低レベルの実行の整合性を弱める。
そこで本研究では,生成的世界モデルを信頼性制御のための明示的な構造化プランナーに再構成するStructVLAを提案する。
密集したロールアウトやセマンティックゴールの代わりに、StructVLAはスパースで物理的に意味のある構造化フレームを予測する。
これらのフレームは、固有のキネマティック・キュー(例えば、グリップ遷移とキネマティック・ターンポイント)から派生したもので、タスクの進行と密接に一致した時空間的なマイルストーンをキャプチャする。
我々は、まず、構造化されたフレームを予測するために世界モデルを訓練し、その後、構造化されたフォアライトを低レベルなアクションにマッピングするように最適化する。
このアプローチは、明確な物理的ガイダンスとブリッジによる視覚計画とモーションコントロールを提供する。
我々の実験では、StructVLAはSimplerEnv-WidowXで75.0%、LIBEROで94.8%という高い平均成功率を達成した。
現実のデプロイメントでは、基本的なピック・アンド・プレイスタスクと複雑なロングホライゾンタスクの両方にわたって、信頼性の高いタスク補完と堅牢な一般化が示される。
関連論文リスト
- StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model [27.54931639768958]
本稿では, これからの3Dシーン占有状況の軌跡条件予測のための新しいアーキテクチャを提案する。
GPTやVGGTのような基本的な視覚や言語モデルにおける注意に基づくトランスフォーマーアーキテクチャにインスパイアされた我々は、中間的な鳥の視線(BEV)投影と、その明示的な幾何学的先行をバイパスする疎密な占有表現を採用した。
離散トークン化の有限容量制約とBEV表現の構造的制約の両方を回避し、1-3秒の占有予測のためのnuScenesベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-27T02:48:45Z) - Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - Human locomotor control timescales depend on the environmental context and sensory input modality [37.48294298569551]
制御時間スケールを定量化する統合データ駆動フレームワークを提案する。
ウォーキングやランニングといったタスクにこのフレームワークを適用します。
本研究の枠組みは,ロポモタ・フット配置制御の時間尺度に影響を与える要因を明らかにする。
論文 参考訳(メタデータ) (2025-03-20T16:57:15Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。