論文の概要: PhysVideoGenerator: Towards Physically Aware Video Generation via Latent Physics Guidance
- arxiv url: http://arxiv.org/abs/2601.03665v1
- Date: Wed, 07 Jan 2026 07:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.369106
- Title: PhysVideoGenerator: Towards Physically Aware Video Generation via Latent Physics Guidance
- Title(参考訳): PhysVideoGenerator:潜在物理誘導による物理認識ビデオ生成を目指して
- Authors: Siddarth Nilol Kundur Satish, Devesh Jaiswal, Hongyu Chen, Abhishek Bakshi,
- Abstract要約: 現在のビデオ生成モデルは高品質な美的ビデオを生成するが、現実の物理力学の表現を学ぶのに苦労することが多い。
本稿では、ビデオ生成プロセスに先立って学習可能な物理を組み込む概念実証フレームワークであるPhysVideoGeneratorを提案する。
本稿では,事前学習したビデオジョイント埋め込み予測アーキテクチャから抽出した高レベルな物理特徴を抑圧する軽量な予測器ネットワークPredictorPを紹介する。
- 参考スコア(独自算出の注目度): 2.2606796828967823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video generation models produce high-quality aesthetic videos but often struggle to learn representations of real-world physics dynamics, resulting in artifacts such as unnatural object collisions, inconsistent gravity, and temporal flickering. In this work, we propose PhysVideoGenerator, a proof-of-concept framework that explicitly embeds a learnable physics prior into the video generation process. We introduce a lightweight predictor network, PredictorP, which regresses high-level physical features extracted from a pre-trained Video Joint Embedding Predictive Architecture (V-JEPA 2) directly from noisy diffusion latents. These predicted physics tokens are injected into the temporal attention layers of a DiT-based generator (Latte) via a dedicated cross-attention mechanism. Our primary contribution is demonstrating the technical feasibility of this joint training paradigm: we show that diffusion latents contain sufficient information to recover V-JEPA 2 physical representations, and that multi-task optimization remains stable over training. This report documents the architectural design, technical challenges, and validation of training stability, establishing a foundation for future large-scale evaluation of physics-aware generative models.
- Abstract(参考訳): 現在のビデオ生成モデルは高品質な美的ビデオを生成するが、現実の物理力学の表現を学ぶのに苦労することが多く、不自然な物体衝突、不整合重力、時間的フリッカリングなどの人工物をもたらす。
本研究では,学習可能な物理をビデオ生成プロセスに組み込む概念実証フレームワークであるPhysVideoGeneratorを提案する。
本稿では,事前学習したビデオジョイント埋め込み予測アーキテクチャ(V-JEPA2)から抽出した高次物理特徴を雑音拡散遅延から直接的に抑制する,軽量な予測器ネットワークPredictorPを紹介する。
これらの予測された物理トークンは、専用のクロスアテンション機構を介して、DiTベースのジェネレータ(ラテ)の時間的注意層に注入される。
我々の主な貢献は、この共同訓練パラダイムの技術的実現可能性を示すことであり、拡散潜水剤はV-JEPA2物理表現を回復するのに十分な情報を含み、マルチタスク最適化はトレーニング中も安定していることを示す。
本報告では, 設計, 技術的課題, 訓練安定性の検証について報告する。
関連論文リスト
- Bootstrapping Physics-Grounded Video Generation through VLM-Guided Iterative Self-Refinement [51.54051161067026]
本稿では,映像生成のための物理対応ガイダンスを提供するための反復的自己再構成フレームワークを提案する。
物理的不整合からのフィードバックに基づいてプロンプトを洗練させるマルチモーダル・チェーン・オブ・シント(MM-CoT)プロセスを導入する。
PhyIQベンチマーク実験の結果,物理IQのスコアは56.31から62.38に改善した。
論文 参考訳(メタデータ) (2025-11-25T13:09:03Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - Improving the Physics of Video Generation with VJEPA-2 Reward Signal [28.62446995107834]
最先端のビデオ生成モデルは、物理的な理解が極めて限られている。
直感的な物理理解は、自然なビデオでSSLの事前トレーニングから現れている。
VJEPA-2を報酬信号として活用することにより、最先端のビデオ生成モデルの物理的妥当性を6%向上できることを示す。
論文 参考訳(メタデータ) (2025-10-22T13:40:38Z) - PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning [49.88366485306749]
現代のビデオ生成モデルは、視覚的にリアルなビデオを生成することができるが、物理法則に従わないことが多い。
本稿では,物理認識力を高めるため,映像生成モデルを導くための表現として,物理知識を捉えたPhysMasterを提案する。
論文 参考訳(メタデータ) (2025-10-15T17:59:59Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models [53.204403109208506]
現在のテキスト・トゥ・ビデオ(T2V)モデルは、物理的にもっともらしいコンテンツを生成するのに苦労することが多い。
本稿では,基礎モデルから物理理解能力を抽出し,基礎モデルからT2Vモデルへ変換するビデオREPAを提案する。
論文 参考訳(メタデータ) (2025-05-29T17:06:44Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning [53.33388279933842]
本稿では,映像生成における物理的一貫性を実現するために,記号的推論と強化学習を統合することを提案する。
そこで我々は,Phys-ARフレームワークを提案する。第1段階は教師付き微調整を用いて記号的知識を伝達し,第2段階はモデルの推論能力の最適化に強化学習を適用する。
提案手法により,生成したビデオの物理的特性を動的に調整し,改善し,物理法則の遵守を確保することができる。
論文 参考訳(メタデータ) (2025-04-22T14:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。