論文の概要: Latent Video Prediction Learns Better World Models
- arxiv url: http://arxiv.org/abs/2605.15618v1
- Date: Fri, 15 May 2026 04:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.175956
- Title: Latent Video Prediction Learns Better World Models
- Title(参考訳): 潜時ビデオ予測はより良い世界モデルを学ぶ
- Authors: Ali J Alrasheed, Aryan Yazdan Parast, Basim Azam, James Bailey, Naveed Akhtar,
- Abstract要約: 自己監督型ビデオモデルは、ますます世界モデルとしてフレーム化されているが、その評価は、クリーンベンチマークにおける1つのトップ1の精度スコアに限られている。
本研究は,このギャップに対処する最初の体系的な研究であり,マッチングされた4つのフロンティア映像基盤モデルの解析を行う。
- 参考スコア(独自算出の注目度): 28.718462738147107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised video models are increasingly framed as world models, yet their evaluation remains largely confined to a single top-1 accuracy score on clean benchmarks. This leaves a major gap in comprehending their potential as world models. We present the first systematic study addressing this gap, analyzing four matched-capacity frontier video foundation models, V-JEPA 2.1, V-JEPA 2, VideoPrism, and VideoMAEv2, across five robustness axes relevant to their deployment as video world models: feature discriminability, corruption robustness, fine-grained discrimination, occlusion robustness, and sensitivity to temporal direction. Our evaluations establish that across all five axes, latent-prediction models form a distinct and consistent profile. They degrade more gracefully under pixel corruption, preserve usable class structure rather than mere geometric stability under occlusion, capture fine-grained physical contact cues without reconstructing pixels, and uniquely encode the arrow of time. These advantages can even survive task adaptation: a frozen V-JEPA 2 backbone with a lightweight attentive probe outperforms a fully fine-tuned VideoMAE and a supervised TimeSformer on corruption and occlusion robustness. Our extensive results offer concrete new evidence in favor of latent prediction for robust world modeling.
- Abstract(参考訳): 自己監督型ビデオモデルは、ますます世界モデルとしてフレーム化されているが、その評価は、クリーンベンチマークにおける1つのトップ1の精度スコアに限られている。
これは、世界モデルとしての可能性を理解する上で、大きなギャップを残します。
本研究は,このギャップに対処する最初の体系的研究であり,V-JEPA 2.1,V-JEPA 2, VideoPrism, VideoMAEv2の4つのマッチング容量フロンティア基盤モデルについて,特徴識別性,汚損堅牢性,きめ細かい識別性,咬合堅牢性,時間方向に対する感受性の5つの頑健性軸を解析した。
我々の評価は、5つの軸全体にわたって、潜在予測モデルが明瞭で一貫したプロファイルを形成することを証明している。
画素の破損下では、より優雅に劣化し、閉塞下での幾何学的安定性よりも使用可能なクラス構造を保ち、ピクセルを再構築することなく微細な物理的接触キューを捕捉し、時間の矢印を独自に符号化する。
軽量の注意プローブを備えた冷凍V-JEPA 2バックボーンは、完全に微調整された VideoMAE と監督された TimeSformer よりも、腐敗と閉塞性に優れています。
我々の広範な成果は、堅牢な世界モデリングの潜在予測に賛成する、具体的な新しい証拠を提供する。
関連論文リスト
- WorldReasonBench: Human-Aligned Stress Testing of Video Generators as Future World-State Predictors [45.545823511469166]
本稿では,映像生成評価を世界状態予測として再設定するWorldReasonBenchを紹介する。
人手による2部構成手法を用いて生成した映像の評価を行った。
WorldRewardBenchは、約6Kのエキスパートアノテートされたペアが1.4Kビデオに対して設定された選好ベンチマークである。
論文 参考訳(メタデータ) (2026-05-11T12:06:57Z) - Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory [53.39687409541093]
Matrix-Game 3.0は、720pのリアルタイムビデオ生成用に設計されたメモリ拡張型インタラクティブワールドモデルである。
データ、モデル、推論にまたがる体系的な改善を導入する。
実験結果から, Matrix-Game 3.0は最大40FPSのリアルタイム生成を実現し, 5Bモデルで720pの解像度を実現した。
論文 参考訳(メタデータ) (2026-04-10T06:00:09Z) - LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels [49.35636088613484]
JEPA(Joint Embedding Predictive Architectures)は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供する。
最初のJEPAであるLeModelWorldを紹介します。
数時間で1つのGPU上で15万のパラメータをトレーニングできるため、LeWMはファンデーションモデルベースの世界モデルよりも48倍高速に計画している。
論文 参考訳(メタデータ) (2026-03-13T19:48:14Z) - What Makes VLMs Robust? Towards Reconciling Robustness and Accuracy in Vision-Language Models [64.99746027349767]
Adversarial Robustness Adaptation (R-Adapt)は、トレーニング済みのすべての重みを凍結し、初期層のみに限って最小限の洞察駆動適応を導入するフレームワークである。
R-Adaptは、大きな視覚言語モデル(LLaVAやQwen-VLなど)に効率よく一般化し、ロバスト性を高める。
論文 参考訳(メタデータ) (2026-03-13T09:02:11Z) - Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。
データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。
品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:00:21Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Taming generative video models for zero-shot optical flow extraction [28.176290134216995]
将来のフレーム予測のためにのみ訓練された自己教師付きビデオモデルは、微調整なしで、出力フローを誘導することができる。
対実世界モデル(CWM)パラダイムに触発されて、我々はこのアイデアを生成型ビデオモデルに拡張する。
KLトラシング(KL-tracing)は、局所摂動を第1フレームに注入し、モデルを第1ステップでロールアウトし、摂動分布と非退化予測分布の間のクルバック・リーブラー分岐を計算する、新しいテストタイムプロシージャである。
論文 参考訳(メタデータ) (2025-07-11T23:59:38Z) - WorldModelBench: Judging Video Generation Models As World Models [57.776769550453594]
ビデオ生成モデルは急速に進歩し、ロボット工学や自動運転といった意思決定アプリケーションをサポートするビデオワールドモデルとしての地位を確立している。
現在のベンチマークでは、これらの主張を厳格に評価することができず、一般的なビデオ品質にのみ焦点が当てられている。
アプリケーション駆動ドメインにおけるビデオ生成モデルのワールドモデリング能力を評価するためのベンチマークであるWorldModelBenchを提案する。
論文 参考訳(メタデータ) (2025-02-28T03:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。