論文の概要: VideoWorld 2: Learning Transferable Knowledge from Real-world Videos
- arxiv url: http://arxiv.org/abs/2602.10102v1
- Date: Tue, 10 Feb 2026 18:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.767051
- Title: VideoWorld 2: Learning Transferable Knowledge from Real-world Videos
- Title(参考訳): VideoWorld 2: 現実世界のビデオからトランスファー可能な知識を学ぶ
- Authors: Zhongwei Ren, Yunchao Wei, Xiao Yu, Guixun Luo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin,
- Abstract要約: VideoWorld 2は、生の現実世界のビデオから直接、転送可能な知識を学ぶための最初の調査を提供する。
VideoWorld 2は、コンパクトで意味のあるタスク関連のダイナミクスに焦点を当てた潜在コードを学ぶ。
VideoWorld 2はタスクの成功率を最大70%向上させる。
- 参考スコア(独自算出の注目度): 128.28225837148713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning transferable knowledge from unlabeled video data and applying it in new environments is a fundamental capability of intelligent agents. This work presents VideoWorld 2, which extends VideoWorld and offers the first investigation into learning transferable knowledge directly from raw real-world videos. At its core, VideoWorld 2 introduces a dynamic-enhanced Latent Dynamics Model (dLDM) that decouples action dynamics from visual appearance: a pretrained video diffusion model handles visual appearance modeling, enabling the dLDM to learn latent codes that focus on compact and meaningful task-related dynamics. These latent codes are then modeled autoregressively to learn task policies and support long-horizon reasoning. We evaluate VideoWorld 2 on challenging real-world handcraft making tasks, where prior video generation and latent-dynamics models struggle to operate reliably. Remarkably, VideoWorld 2 achieves up to 70% improvement in task success rate and produces coherent long execution videos. In robotics, we show that VideoWorld 2 can acquire effective manipulation knowledge from the Open-X dataset, which substantially improves task performance on CALVIN. This study reveals the potential of learning transferable world knowledge directly from raw videos, with all code, data, and models to be open-sourced for further research.
- Abstract(参考訳): ラベルのないビデオデータから伝達可能な知識を学び、それを新しい環境に適用することは、インテリジェントエージェントの基本的な能力である。
この研究は、VideoWorldを拡張したVideoWorld 2を紹介し、生の現実世界のビデオから直接、伝達可能な知識を学習するための最初の調査を提供する。
事前訓練されたビデオ拡散モデルは、視覚的な外観モデリングを処理し、dLDMはコンパクトで有意義なタスク関連のダイナミクスに焦点を当てた潜在コードを学ぶことができる。
これらの潜在コードは、タスクポリシーを学習し、長期的推論をサポートするために自動回帰的にモデル化される。
我々は,従来のビデオ生成モデルと潜伏力学モデルが確実に動作するのに苦労する実世界の手工芸の課題について,ビデオワールド2を評価する。
注目すべきは、VideoWorld 2はタスクの成功率を最大70%改善し、コヒーレントなロング実行ビデオを生成することだ。
ロボット工学において,ビデオワールド2は,CALVIN上でのタスク性能を大幅に向上させるOpen-Xデータセットから,効果的な操作知識を得ることができることを示す。
本研究は,移動可能な世界知識を生のビデオから直接学習する可能性を明らかにし,コード,データ,モデルをオープンソース化し,さらなる研究を行う。
関連論文リスト
- Learning Skills from Action-Free Videos [20.442392109789772]
我々は,アクションフリービデオから潜在スキルを学ぶためのフレームワークであるSkill Abstraction from Optical Flow (SOF)を紹介した。
SOFは、ビデオ由来のスキルよりも高いレベルのプランニングを可能にし、これらのスキルのアクションへの翻訳を容易にする。
実験により,マルチタスクとロングホライズン設定の両方において,提案手法は一貫して性能を向上することが示された。
論文 参考訳(メタデータ) (2025-12-23T05:03:33Z) - Dual Learning with Dynamic Knowledge Distillation and Soft Alignment for Partially Relevant Video Retrieval [53.54695034420311]
実際には、ビデオは通常、より複雑な背景コンテンツによって、長い時間で切り離される。
本稿では,大規模視覚言語事前学習モデルから一般化知識を抽出する新しい枠組みを提案する。
実験により,本モデルがTVR,ActivityNet,Charades-STAデータセット上での最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-10-14T08:38:20Z) - Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - Vid2World: Crafting Video Diffusion Models to Interactive World Models [35.42362065437052]
我々は、トレーニング済みの動画拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチであるVid2Worldを紹介する。
本手法は,高機能な映像拡散モデルをインタラクティブな世界モデルに再利用するための,スケーラブルで効果的な経路を提供する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - VideoWorld: Exploring Knowledge Learning from Unlabeled Videos [119.35107657321902]
この研究は、深層生成モデルが視覚入力のみから複雑な知識を学習できるかどうかを考察する。
我々は、未ラベルのビデオデータに基づいて訓練された自動回帰ビデオ生成モデルであるVideoWorldを開発し、ビデオベースのGoとロボット制御タスクにおける知識獲得能力をテストする。
論文 参考訳(メタデータ) (2025-01-16T18:59:10Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。