論文の概要: MMPhysVideo: Scaling Physical Plausibility in Video Generation via Joint Multimodal Modeling
- arxiv url: http://arxiv.org/abs/2604.02817v1
- Date: Fri, 03 Apr 2026 07:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.374721
- Title: MMPhysVideo: Scaling Physical Plausibility in Video Generation via Joint Multimodal Modeling
- Title(参考訳): MMPhysVideo:ジョイントマルチモーダルモデリングによるビデオ生成における物理的可塑性のスケーリング
- Authors: Shubo Lin, Xuanyang Zhang, Wei Cheng, Weiming Hu, Gang Yu, Jin Gao,
- Abstract要約: MMPhysVideoは、共同マルチモーダルモデリングにおけるビデオ生成における物理的可視性を拡大するフレームワークである。
MMPhysVideoは、様々なベンチマークで高度なモデルよりも、物理的な可視性と視覚的品質を一貫して改善している。
- 参考スコア(独自算出の注目度): 55.72785604682579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advancements in generating visually stunning content, video diffusion models (VDMs) often yield physically inconsistent results due to pixel-only reconstruction. To address this, we propose MMPhysVideo, the first framework to scale physical plausibility in video generation through joint multimodal modeling. We recast perceptual cues, specifically semantics, geometry, and spatio-temporal trajectory, into a unified pseudo-RGB format, enabling VDMs to directly capture complex physical dynamics. To mitigate cross-modal interference, we propose a Bidirectionally Controlled Teacher architecture, which utilizes parallel branches to fully decouple RGB and perception processing and adopts two zero-initialized control links to gradually learn pixel-wise consistency. For inference efficiency, the teacher's physical prior is distilled into a single-stream student model via representation alignment. Furthermore, we present MMPhysPipe, a scalable data curation and annotation pipeline tailored for constructing physics-rich multimodal datasets. MMPhysPipe employs a vision-language model (VLM) guided by a chain-of-visual-evidence rule to pinpoint physical subjects, enabling expert models to extract multi-granular perceptual information. Without additional inference costs, MMPhysVideo consistently improves physical plausibility and visual quality over advanced models across various benchmarks and achieves state-of-the-art performance compared to existing methods.
- Abstract(参考訳): 映像拡散モデル(VDM)は、視覚的に素晴らしいコンテンツを生成する進歩にもかかわらず、ピクセルのみの再構成によって物理的に矛盾する結果をもたらすことが多い。
そこで我々は,MMPhysVideoを提案する。MMPhysVideoは共同マルチモーダルモデリングにより,ビデオ生成における物理的妥当性を拡張できる最初のフレームワークである。
我々は、知覚的手がかり、特に意味論、幾何学、時空間軌道を統一された擬似RGBフォーマットに再キャストし、VDMが複雑な物理力学を直接キャプチャすることを可能にする。
並列分岐を利用してRGBと知覚処理を完全に分離し、2つのゼロ初期化制御リンクを採用して画素の一貫性を徐々に学習する双方向制御型教師アーキテクチャを提案する。
推論効率を向上させるために、教師の身体的事前は、表現アライメントを通して単一ストリームの学生モデルに蒸留される。
さらに,物理量の多いマルチモーダルデータセットの構築に適した,スケーラブルなデータキュレーションとアノテーションパイプラインであるMMPhysPipeを提案する。
MMPhysPipeは視覚言語モデル (VLM) を用いて、視覚のチェーン・オブ・ヴィジュアル・エビデンス・ルール(英語版)で導かれる物理的対象をピンポイントし、専門家モデルが複数の粒度の知覚情報を抽出できるようにする。
追加の推論コストがなければ、MMPhysVideoは様々なベンチマークで高度なモデルよりも物理的妥当性と視覚的品質を継続的に改善し、既存の手法と比較して最先端のパフォーマンスを達成する。
関連論文リスト
- PhysAlign: Physics-Coherent Image-to-Video Generation through Feature and 3D Representation Alignment [23.066204478030627]
ビデオモデル(VDM)は、動的なシーンや環境をシミュレートするための有望なアプローチを提供する。
既存のモデルは、しばしば基本的な物理的直観に反する時間的に一貫性のないコンテンツを生成する。
物理コヒーレントな画像対ビデオI(2V)生成のための効率的なフレームワークであるPhysAlignを提案する。
論文 参考訳(メタデータ) (2026-03-14T05:44:18Z) - Learning Physics from Pretrained Video Models: A Multimodal Continuous and Sequential World Interaction Models for Robotic Manipulation [63.04810454548667]
我々は、ロボット操作タスクを解決するために、スケーラブルで連続的かつシーケンシャルな世界インタラクションフレームワークであるPhysGenを紹介した。
トレーニング済みのビデオモデルを物理シミュレーターのプロキシとして扱うことで、PhysGenは外部環境とロボット動作の間の動的相互作用をモデル化する。
本稿では,映像とアクションを共有物理トークンに統合し,離散映像生成と連続ロボット制御のギャップを埋めるマルチモーダル連続表現を提案する。
論文 参考訳(メタデータ) (2026-02-18T14:58:18Z) - Exploring Physical Intelligence Emergence via Omni-Modal Architecture and Physical Data Engine [50.62040226184694]
我々はOmniFysicsについて紹介する。OmniFysicsは、画像、音声、ビデオ、テキスト間の理解を統一するコンパクトなオムニモーダルモデルである。
明示的な物理知識を注入するために、2つのコンポーネントからなる物理データエンジンを構築します。
実験は、標準マルチモーダルベンチマークにおける競合性能を示し、物理指向評価の結果を改善した。
論文 参考訳(メタデータ) (2026-02-05T14:04:51Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - Physics-Guided Motion Loss for Video Generation Model [8.083315267770255]
現在のビデオ拡散モデルは視覚的に魅力的なコンテンツを生成するが、物理の基本法則に反することが多い。
モデルアーキテクチャを変更することなく、動きの可視性を向上する周波数領域物理を導入する。
論文 参考訳(メタデータ) (2025-06-02T20:42:54Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - PhyMAGIC: Physical Motion-Aware Generative Inference with Confidence-guided LLM [17.554471769834453]
一つの画像から物理的に一貫した動きを生成するトレーニング不要のフレームワークであるPhyMAGICを提案する。
PhyMAGICは、事前訓練された画像間拡散モデル、LDMによる信頼誘導推論、微分可能な物理シミュレータを統合する。
総合的な実験により、PhyMAGICは最先端のビデオジェネレータや物理対応のベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-05-22T09:40:34Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - PhysMotion: Physics-Grounded Dynamics From a Single Image [24.096925413047217]
本稿では、物理シミュレーションを利用した新しいフレームワークであるPhysMotionを紹介し、一つの画像と入力条件から生成された中間3次元表現をガイドする。
我々のアプローチは、従来のデータ駆動生成モデルの限界に対処し、より一貫した物理的に妥当な動きをもたらす。
論文 参考訳(メタデータ) (2024-11-26T07:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。