論文の概要: Improving the Physics of Video Generation with VJEPA-2 Reward Signal
- arxiv url: http://arxiv.org/abs/2510.21840v1
- Date: Wed, 22 Oct 2025 13:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.605176
- Title: Improving the Physics of Video Generation with VJEPA-2 Reward Signal
- Title(参考訳): VJEPA-2逆信号による映像生成の物理改善
- Authors: Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano,
- Abstract要約: 最先端のビデオ生成モデルは、物理的な理解が極めて限られている。
直感的な物理理解は、自然なビデオでSSLの事前トレーニングから現れている。
VJEPA-2を報酬信号として活用することにより、最先端のビデオ生成モデルの物理的妥当性を6%向上できることを示す。
- 参考スコア(独自算出の注目度): 28.62446995107834
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This is a short technical report describing the winning entry of the PhysicsIQ Challenge, presented at the Perception Test Workshop at ICCV 2025. State-of-the-art video generative models exhibit severely limited physical understanding, and often produce implausible videos. The Physics IQ benchmark has shown that visual realism does not imply physics understanding. Yet, intuitive physics understanding has shown to emerge from SSL pretraining on natural videos. In this report, we investigate whether we can leverage SSL-based video world models to improve the physics plausibility of video generative models. In particular, we build ontop of the state-of-the-art video generative model MAGI-1 and couple it with the recently introduced Video Joint Embedding Predictive Architecture 2 (VJEPA-2) to guide the generation process. We show that by leveraging VJEPA-2 as reward signal, we can improve the physics plausibility of state-of-the-art video generative models by ~6%.
- Abstract(参考訳): ICCV 2025のパーセプションテストワークショップで発表された物理IQチャレンジの優勝について、短い技術的報告である。
最先端のビデオ生成モデルは、物理的に非常に限定された理解を示し、しばしば不可解なビデオを生成する。
物理IQベンチマークは、視覚リアリズムが物理学的な理解を示唆しないことを示した。
しかし、直感的な物理理解は、自然ビデオ上でSSLの事前トレーニングから現れている。
本稿では、SSLベースのビデオワールドモデルを用いて、ビデオ生成モデルの物理的妥当性を向上させることができるかを検討する。
特に,最新の映像生成モデルMAGI-1上に構築し,最近導入されたビデオ統合埋め込み予測アーキテクチャ2(VJEPA-2)と組み合わせて生成プロセスのガイドを行う。
VJEPA-2を報酬信号として活用することにより、最先端のビデオ生成モデルの物理的妥当性を約6%向上できることを示す。
関連論文リスト
- PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning [49.88366485306749]
現代のビデオ生成モデルは、視覚的にリアルなビデオを生成することができるが、物理法則に従わないことが多い。
本稿では,物理認識力を高めるため,映像生成モデルを導くための表現として,物理知識を捉えたPhysMasterを提案する。
論文 参考訳(メタデータ) (2025-10-15T17:59:59Z) - PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。
本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。
実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T17:58:04Z) - VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models [53.204403109208506]
現在のテキスト・トゥ・ビデオ(T2V)モデルは、物理的にもっともらしいコンテンツを生成するのに苦労することが多い。
本稿では,基礎モデルから物理理解能力を抽出し,基礎モデルからT2Vモデルへ変換するビデオREPAを提案する。
論文 参考訳(メタデータ) (2025-05-29T17:06:44Z) - Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments [55.56181322973467]
物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。
物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。
我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
論文 参考訳(メタデータ) (2025-04-03T15:21:17Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - Do generative video models understand physical principles? [15.534227431706773]
AIビデオ生成は、品質とリアリズムが急速に進歩し、革命を遂げている。
ビデオモデルは、物理の法則を発見する「世界モデル」を学ぶのか、それとも、現実の物理原理を理解せずに視覚的リアリズムを達成するための高度なピクセル予測器なのか?
我々は,様々な物理原理の深い理解を得ることによってのみ解決できるベンチマークデータセットであるPhysical-IQを開発することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-01-14T20:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。