論文の概要: Large Video Planner Enables Generalizable Robot Control
- arxiv url: http://arxiv.org/abs/2512.15840v1
- Date: Wed, 17 Dec 2025 18:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.759657
- Title: Large Video Planner Enables Generalizable Robot Control
- Title(参考訳): 大きなビデオプランナーは、汎用的なロボット制御を可能にする
- Authors: Boyuan Chen, Tianyuan Zhang, Haoran Geng, Kiwhan Song, Caiyi Zhang, Peihao Li, William T. Freeman, Jitendra Malik, Pieter Abbeel, Russ Tedrake, Vincent Sitzmann, Yilun Du,
- Abstract要約: 汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。
最近の研究は、マルチモーダル大言語モデル(LM)をアクション出力で拡張し、視覚-アクション(VLA)システムを構築することで、ロボット基盤モデルを構築している。
本稿では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いるための代替パラダイムについて検討する。
- 参考スコア(独自算出の注目度): 117.49024534548319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose robots require decision-making models that generalize across diverse tasks and environments. Recent works build robot foundation models by extending multimodal large language models (MLLMs) with action outputs, creating vision-language-action (VLA) systems. These efforts are motivated by the intuition that MLLMs' large-scale language and image pretraining can be effectively transferred to the action output modality. In this work, we explore an alternative paradigm of using large-scale video pretraining as a primary modality for building robot foundation models. Unlike static images and language, videos capture spatio-temporal sequences of states and actions in the physical world that are naturally aligned with robotic behavior. We curate an internet-scale video dataset of human activities and task demonstrations, and train, for the first time at a foundation-model scale, an open video model for generative robotics planning. The model produces zero-shot video plans for novel scenes and tasks, which we post-process to extract executable robot actions. We evaluate task-level generalization through third-party selected tasks in the wild and real-robot experiments, demonstrating successful physical execution. Together, these results show robust instruction following, strong generalization, and real-world feasibility. We release both the model and dataset to support open, reproducible video-based robot learning. Our website is available at https://www.boyuan.space/large-video-planner/.
- Abstract(参考訳): 汎用ロボットは、様々なタスクや環境にまたがって一般化する意思決定モデルを必要とする。
近年,マルチモーダル大言語モデル(MLLM)を動作出力で拡張し,視覚言語アクション(VLA)システムを構築するロボット基盤モデルの構築が進められている。
これらの取り組みは、MLLMの大規模言語と画像事前学習が、アクション出力のモダリティに効果的に移行できるという直感に動機付けられている。
本研究では,ロボット基礎モデル構築における主要なモダリティとして,大規模ビデオ事前学習を用いる代替パラダイムについて検討する。
静的画像や言語とは異なり、ビデオはロボットの振る舞いと自然に一致した物理的世界の状態と行動の時空間的シーケンスをキャプチャする。
生成ロボット計画のためのオープンなビデオモデルであるファウンデーション・モデル・スケールで初めて、人間の活動とタスク・デモのインターネットスケールのビデオデータセットをキュレートし、トレーニングする。
本モデルでは,新規シーンとタスクのゼロショット映像プランを作成し,実行可能ロボット動作の抽出を後処理する。
本研究では,実ロボット実験における第三者選択タスクによるタスクレベルの一般化を評価し,身体的実行の成功を実証した。
これらの結果から, 強い一般化と実世界の実現可能性を示す。
我々は、オープンで再現可能なビデオベースのロボット学習をサポートするために、モデルとデータセットの両方をリリースする。
私たちのウェブサイトはhttps://www.boyuan.space/large-video-planner/.comで閲覧できます。
関連論文リスト
- VideoVLA: Video Generators Can Be Generalizable Robot Manipulators [86.70243911696616]
ロボット操作の一般化は、オープンワールド環境におけるロボットの展開に不可欠である。
本稿では,大容量ビデオ生成モデルをロボットVLAマニピュレータに変換する可能性を探る,シンプルなアプローチであるVideoVLAを提案する。
論文 参考訳(メタデータ) (2025-12-07T18:57:15Z) - Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos [42.86535655563404]
我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。
大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。
我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
論文 参考訳(メタデータ) (2025-10-24T15:39:31Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。