論文の概要: VideoWorld 2: Learning Transferable Knowledge from Real-world Videos
- arxiv url: http://arxiv.org/abs/2602.10102v1
- Date: Tue, 10 Feb 2026 18:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.767051
- Title: VideoWorld 2: Learning Transferable Knowledge from Real-world Videos
- Title(参考訳): VideoWorld 2: 現実世界のビデオからトランスファー可能な知識を学ぶ
- Authors: Zhongwei Ren, Yunchao Wei, Xiao Yu, Guixun Luo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin,
- Abstract要約: VideoWorld 2は、生の現実世界のビデオから直接、転送可能な知識を学ぶための最初の調査を提供する。
VideoWorld 2は、コンパクトで意味のあるタスク関連のダイナミクスに焦点を当てた潜在コードを学ぶ。
VideoWorld 2はタスクの成功率を最大70%向上させる。
- 参考スコア(独自算出の注目度): 128.28225837148713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning transferable knowledge from unlabeled video data and applying it in new environments is a fundamental capability of intelligent agents. This work presents VideoWorld 2, which extends VideoWorld and offers the first investigation into learning transferable knowledge directly from raw real-world videos. At its core, VideoWorld 2 introduces a dynamic-enhanced Latent Dynamics Model (dLDM) that decouples action dynamics from visual appearance: a pretrained video diffusion model handles visual appearance modeling, enabling the dLDM to learn latent codes that focus on compact and meaningful task-related dynamics. These latent codes are then modeled autoregressively to learn task policies and support long-horizon reasoning. We evaluate VideoWorld 2 on challenging real-world handcraft making tasks, where prior video generation and latent-dynamics models struggle to operate reliably. Remarkably, VideoWorld 2 achieves up to 70% improvement in task success rate and produces coherent long execution videos. In robotics, we show that VideoWorld 2 can acquire effective manipulation knowledge from the Open-X dataset, which substantially improves task performance on CALVIN. This study reveals the potential of learning transferable world knowledge directly from raw videos, with all code, data, and models to be open-sourced for further research.
- Abstract(参考訳): ラベルのないビデオデータから伝達可能な知識を学び、それを新しい環境に適用することは、インテリジェントエージェントの基本的な能力である。
この研究は、VideoWorldを拡張したVideoWorld 2を紹介し、生の現実世界のビデオから直接、伝達可能な知識を学習するための最初の調査を提供する。
事前訓練されたビデオ拡散モデルは、視覚的な外観モデリングを処理し、dLDMはコンパクトで有意義なタスク関連のダイナミクスに焦点を当てた潜在コードを学ぶことができる。
これらの潜在コードは、タスクポリシーを学習し、長期的推論をサポートするために自動回帰的にモデル化される。
我々は,従来のビデオ生成モデルと潜伏力学モデルが確実に動作するのに苦労する実世界の手工芸の課題について,ビデオワールド2を評価する。
注目すべきは、VideoWorld 2はタスクの成功率を最大70%改善し、コヒーレントなロング実行ビデオを生成することだ。
ロボット工学において,ビデオワールド2は,CALVIN上でのタスク性能を大幅に向上させるOpen-Xデータセットから,効果的な操作知識を得ることができることを示す。
本研究は,移動可能な世界知識を生のビデオから直接学習する可能性を明らかにし,コード,データ,モデルをオープンソース化し,さらなる研究を行う。
関連論文リスト
- Dual Learning with Dynamic Knowledge Distillation and Soft Alignment for Partially Relevant Video Retrieval [53.54695034420311]
実際には、ビデオは通常、より複雑な背景コンテンツによって、長い時間で切り離される。
本稿では,大規模視覚言語事前学習モデルから一般化知識を抽出する新しい枠組みを提案する。
実験により,本モデルがTVR,ActivityNet,Charades-STAデータセット上での最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-10-14T08:38:20Z) - VideoWorld: Exploring Knowledge Learning from Unlabeled Videos [119.35107657321902]
この研究は、深層生成モデルが視覚入力のみから複雑な知識を学習できるかどうかを考察する。
我々は、未ラベルのビデオデータに基づいて訓練された自動回帰ビデオ生成モデルであるVideoWorldを開発し、ビデオベースのGoとロボット制御タスクにおける知識獲得能力をテストする。
論文 参考訳(メタデータ) (2025-01-16T18:59:10Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。