論文の概要: Back to the Features: DINO as a Foundation for Video World Models
- arxiv url: http://arxiv.org/abs/2507.19468v1
- Date: Fri, 25 Jul 2025 17:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.058437
- Title: Back to the Features: DINO as a Foundation for Video World Models
- Title(参考訳): ビデオワールドモデルの基礎としてのDINO
- Authors: Federico Baldassarre, Marc Szafraniec, Basile Terver, Vasil Khalidov, Francisco Massa, Yann LeCun, Patrick Labatut, Maximilian Seitzer, Piotr Bojanowski,
- Abstract要約: 我々は、DINOv2の潜在空間における将来のフレームを予測するために訓練された、強力なジェネラリストビデオワールドモデルであるDINO-worldを紹介する。
トレーニング済みの画像エンコーダを活用して、大規模未処理ビデオデータセット上で将来の予測器をトレーニングすることにより、DINO-worldは多様なシーンの時間的ダイナミクスを学習する。
- 参考スコア(独自算出の注目度): 29.116268020812072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DINO-world, a powerful generalist video world model trained to predict future frames in the latent space of DINOv2. By leveraging a pre-trained image encoder and training a future predictor on a large-scale uncurated video dataset, DINO-world learns the temporal dynamics of diverse scenes, from driving and indoor scenes to simulated environments. We show that DINO-world outperforms previous models on a variety of video prediction benchmarks, e.g. segmentation and depth forecasting, and demonstrates strong understanding of intuitive physics. Furthermore, we show that it is possible to fine-tune the predictor on observation-action trajectories. The resulting action-conditioned world model can be used for planning by simulating candidate trajectories in latent space.
- Abstract(参考訳): 我々は、DINOv2の潜在空間における将来のフレームを予測するために訓練された、強力なジェネラリストビデオワールドモデルであるDINO-worldを紹介する。
トレーニング済みの画像エンコーダを活用して、大規模な未計算ビデオデータセット上で将来の予測器をトレーニングすることにより、DINO-worldは、運転や室内のシーンからシミュレーション環境に至るまで、多様なシーンの時間的ダイナミクスを学ぶ。
DINO-worldは,様々なビデオ予測ベンチマーク,egセグメンテーション,深度予測において,過去のモデルよりも優れており,直感的な物理の理解が強いことを示す。
さらに,観測行動軌跡の予測器を微調整することが可能であることを示す。
結果として生じる行動条件付き世界モデルは、潜在空間における候補軌道をシミュレートすることで計画に利用できる。
関連論文リスト
- Programmatic Video Prediction Using Large Language Models [21.11346129620144]
ProgGenは、ニューロシンボリックで人間の解釈可能な状態のセットを使用して、ビデオのダイナミックスを表現する。
提案手法は,2つの挑戦環境における映像フレーム予測の課題において,競合する手法よりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T22:17:47Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - GaussianPrediction: Dynamic 3D Gaussian Prediction for Motion Extrapolation and Free View Synthesis [71.24791230358065]
動的シーンモデリングと将来のシナリオ合成により,3次元ガウス表現を実現する新しいフレームワークを提案する。
GaussianPredictionは、ダイナミックなシーンのビデオ観察を使用して、あらゆる視点から将来の状態を予測できる。
本フレームワークは,合成データセットと実世界のデータセットの両方で優れた性能を示し,将来の環境の予測とレンダリングの有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T06:47:55Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - LOPR: Latent Occupancy PRediction using Generative Models [49.15687400958916]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。
本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-03T22:04:00Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Simple Video Generation using Neural ODEs [9.303957136142293]
我々は、潜在空間の将来を予測する潜在変数モデルを学び、ピクセルに投影する。
1桁と2桁の移動MNISTデータセットにおける将来のフレーム予測のタスクにおいて,提案手法が有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-07T19:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。