論文の概要: V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
- arxiv url: http://arxiv.org/abs/2506.09985v1
- Date: Wed, 11 Jun 2025 17:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.187124
- Title: V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
- Title(参考訳): V-JEPA 2: 自己監督型ビデオモデル
- Authors: Mido Assran, Adrien Bardes, David Fan, Quentin Garrido, Russell Howes, Mojtaba, Komeili, Matthew Muckley, Ammar Rizvi, Claire Roberts, Koustuv Sinha, Artem Zholus, Sergio Arnaud, Abha Gejji, Ada Martin, Francois Robert Hogan, Daniel Dugas, Piotr Bojanowski, Vasil Khalidov, Patrick Labatut, Francisco Massa, Marc Szafraniec, Kapil Krishnakumar, Yong Li, Xiaodong Ma, Sarath Chandar, Franziska Meier, Yann LeCun, Michael Rabbat, Nicolas Ballas,
- Abstract要約: 現代のAIにとっての大きな課題は、世界を理解し、主に観察によって行動することを学ぶことである。
本稿では,インターネット規模のビデオデータと少量のインタラクションデータを組み合わせた自己教師型アプローチについて検討する。
我々は物理世界で理解し、予測し、計画できるモデルを開発する。
- 参考スコア(独自算出の注目度): 43.18609951839598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge for modern AI is to learn to understand the world and learn to act largely by observation. This paper explores a self-supervised approach that combines internet-scale video data with a small amount of interaction data (robot trajectories), to develop models capable of understanding, predicting, and planning in the physical world. We first pre-train an action-free joint-embedding-predictive architecture, V-JEPA 2, on a video and image dataset comprising over 1 million hours of internet video. V-JEPA 2 achieves strong performance on motion understanding (77.3 top-1 accuracy on Something-Something v2) and state-of-the-art performance on human action anticipation (39.7 recall-at-5 on Epic-Kitchens-100) surpassing previous task-specific models. Additionally, after aligning V-JEPA 2 with a large language model, we demonstrate state-of-the-art performance on multiple video question-answering tasks at the 8 billion parameter scale (e.g., 84.0 on PerceptionTest, 76.9 on TempCompass). Finally, we show how self-supervised learning can be applied to robotic planning tasks by post-training a latent action-conditioned world model, V-JEPA 2-AC, using less than 62 hours of unlabeled robot videos from the Droid dataset. We deploy V-JEPA 2-AC zero-shot on Franka arms in two different labs and enable picking and placing of objects using planning with image goals. Notably, this is achieved without collecting any data from the robots in these environments, and without any task-specific training or reward. This work demonstrates how self-supervised learning from web-scale data and a small amount of robot interaction data can yield a world model capable of planning in the physical world.
- Abstract(参考訳): 現代のAIにとっての大きな課題は、世界を理解することを学び、観察によって行動することを学ぶことである。
本稿では,インターネット規模のビデオデータと少量の対話データ(ロボット軌道)を組み合わせ,物理的世界における理解,予測,計画が可能なモデルを開発するための自己教師型アプローチについて検討する。
我々はまず、100万時間以上のインターネットビデオからなるビデオおよび画像データセット上で、アクションフリーな共同埋め込み予測アーキテクチャであるV-JEPA 2を事前訓練した。
V-JEPA 2は、動作理解(Something v2)における77.3トップ-1の精度)と人間の行動予測(Epic-Kitchens-100における39.7リコール-at-5)における最先端のパフォーマンスを、従来のタスク固有モデルを上回っている。
さらに、V-JEPA 2を大きな言語モデルに合わせると、80億のパラメータスケール(PerceptionTestでは84.0、TempCompassでは76.9)で、複数のビデオ質問応答タスクにおける最先端のパフォーマンスを示す。
最後に、Droidデータセットから62時間未満の未ラベルのロボットビデオを用いて、潜在行動条件付き世界モデルであるV-JEPA 2-ACを訓練し、自己教師型学習がロボット計画タスクにどのように適用できるかを示す。
V-JEPA 2-ACゼロショットを2つの異なる研究室でフランカの腕にデプロイし、イメージ目標の計画を使ってオブジェクトのピッキングと配置を可能にします。
特に、これらの環境でロボットからデータを収集することなく、タスク固有のトレーニングや報酬なしで達成される。
この研究は、Webスケールのデータと少量のロボットインタラクションデータからの自己教師型学習が、物理的な世界で計画可能な世界モデルを生み出す方法を示す。
関連論文リスト
- HUMOTO: A 4D Dataset of Mocap Human Object Interactions [27.573065832588554]
Human Motions with Objects(ヒューマン・モーション・ウィズ・オブジェクト)は、モーション生成、コンピュータビジョン、ロボット工学応用のための人間と物体の相互作用の高忠実なデータセットである。
Humotoは、63の精度でモデル化されたオブジェクトと72の明瞭なパーツとのインタラクションをキャプチャする。
プロのアーティストは、それぞれのシーケンスを厳格に掃除し、検証し、足の滑りや物体の侵入を最小限にする。
論文 参考訳(メタデータ) (2025-04-14T16:59:29Z) - Seer: Language Instructed Video Prediction with Latent Diffusion Models [43.708550061909754]
テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。
時間軸に沿って,事前訓練されたテキスト・ツー・イメージ(T2I)の安定拡散モデルを膨らませることで,サンプルモデルと計算効率のよいtextbfSeerを提案する。
適応設計のアーキテクチャにより、Seerは高忠実でコヒーレントで命令に準拠したビデオフレームを生成することができる。
論文 参考訳(メタデータ) (2023-03-27T03:12:24Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。