論文の概要: VideoVLA: Video Generators Can Be Generalizable Robot Manipulators
- arxiv url: http://arxiv.org/abs/2512.06963v1
- Date: Sun, 07 Dec 2025 18:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.607896
- Title: VideoVLA: Video Generators Can Be Generalizable Robot Manipulators
- Title(参考訳): VideoVLA:ビデオジェネレータは汎用ロボットマニピュレータ
- Authors: Yichao Shen, Fangyun Wei, Zhiying Du, Yaobo Liang, Yan Lu, Jiaolong Yang, Nanning Zheng, Baining Guo,
- Abstract要約: ロボット操作の一般化は、オープンワールド環境におけるロボットの展開に不可欠である。
本稿では,大容量ビデオ生成モデルをロボットVLAマニピュレータに変換する可能性を探る,シンプルなアプローチであるVideoVLAを提案する。
- 参考スコア(独自算出の注目度): 86.70243911696616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalization in robot manipulation is essential for deploying robots in open-world environments and advancing toward artificial general intelligence. While recent Vision-Language-Action (VLA) models leverage large pre-trained understanding models for perception and instruction following, their ability to generalize to novel tasks, objects, and settings remains limited. In this work, we present VideoVLA, a simple approach that explores the potential of transforming large video generation models into robotic VLA manipulators. Given a language instruction and an image, VideoVLA predicts an action sequence as well as the future visual outcomes. Built on a multi-modal Diffusion Transformer, VideoVLA jointly models video, language, and action modalities, using pre-trained video generative models for joint visual and action forecasting. Our experiments show that high-quality imagined futures correlate with reliable action predictions and task success, highlighting the importance of visual imagination in manipulation. VideoVLA demonstrates strong generalization, including imitating other embodiments' skills and handling novel objects. This dual-prediction strategy - forecasting both actions and their visual consequences - explores a paradigm shift in robot learning and unlocks generalization capabilities in manipulation systems.
- Abstract(参考訳): ロボット操作の一般化は、ロボットをオープンワールド環境に展開し、人工知能に進む上で不可欠である。
近年のVision-Language-Action(VLA)モデルは、学習済みの大規模理解モデルを利用して知覚と指示に従うが、新しいタスク、オブジェクト、設定に一般化する能力は依然として限られている。
本稿では,大規模なビデオ生成モデルからロボットVLAマニピュレータへの変換の可能性を探る,シンプルなアプローチであるVideoVLAを提案する。
言語命令と画像が与えられた後、VideoVLAはアクションシーケンスと将来の視覚的結果を予測する。
Multi-modal Diffusion Transformer上に構築されたVideoVLAは、ビデオ、言語、アクションのモダリティを共同でモデル化する。
我々の実験は、高品質な想像された未来は、信頼性のある行動予測とタスク成功と相関し、操作における視覚的想像力の重要性を強調していることを示している。
VideoVLAは、他の実施者のスキルを模倣したり、新しいオブジェクトを扱うなど、強力な一般化を示している。
この二重予測戦略は、動作と視覚的結果の両方を予測するもので、ロボット学習のパラダイムシフトを探求し、操作システムにおける一般化能力を解き放つ。
関連論文リスト
- UniCoD: Enhancing Robot Policy via Unified Continuous and Discrete Representation Learning [22.84748754972181]
オープンエンド環境で多様なタスクを処理できる汎用的なロボットポリシーを構築することは、ロボット工学における中心的な課題である。
大規模な事前学習から知識を活用するために、以前の研究は一般的に視覚言語理解モデル(VLM)または生成モデルの上に一般的なポリシーを構築してきた。
最近の生成と理解の統一モデルは、大規模な事前学習を通じて、理解と生成の両方において強力な能力を示している。
そこで,UniCoDを導入し,100万以上のインターネット規模の操作映像を事前学習することで,高次元視覚特徴を動的にモデル化する機能を実現する。
論文 参考訳(メタデータ) (2025-10-12T14:54:19Z) - OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation [68.11862866566817]
3D対応のポリシーは、精密なロボット操作タスクにおいて最先端のパフォーマンスを実現するが、見えない指示、シーン、オブジェクトへの一般化に苦慮している。
我々は,視覚言語行動モデル(VLA)の一般化強度と3D対応ポリシーの堅牢性を組み合わせた,新しいアーキテクチャと学習フレームワークであるOG-VLAを紹介する。
論文 参考訳(メタデータ) (2025-06-01T22:15:45Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。