論文の概要: Physics-Informed Video Generation via Mixture-of-Experts Latent Alignment
- arxiv url: http://arxiv.org/abs/2606.04737v1
- Date: Wed, 03 Jun 2026 11:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 07:07:40.488932
- Title: Physics-Informed Video Generation via Mixture-of-Experts Latent Alignment
- Title(参考訳): 実験用ラテントアライメントによる物理インフォームドビデオ生成
- Authors: Cong Wang, Hanxin Zhu, Jiayi Luo, Yonglin Tian, Xiaoqian Cheng, Peiyan Tu, Xin Jin, Long Chen, Zhibo Chen,
- Abstract要約: textbfPILA (Physics-Informed Latent Alignment) は、物理構造による遅延ガイダンスをビデオモデルのフローマッチング力学に注入するフレームワークである。
PILAは、VBench-2.0、VideoPhy-2、PhyGenBenchの視覚的品質とベンチマークによる物理的妥当性の両面で、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 22.58885733358214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale video generation models have made remarkable progress in semantic consistency and visual quality, producing videos that are increasingly coherent and visually convincing. Nevertheless, the dynamics induced by pixel-level fitting do not naturally accommodate the regularities that govern real-world motion and interaction, resulting in persistent shortcomings in physical plausibility. To address this limitation, we propose \textbf{PILA} (Physics-Informed Latent Alignment), a framework that injects physics-structured latent guidance into the frozen flow-matching dynamics of pretrained video models. Specifically, PILA first employs anchored field estimation to map frozen-generator latents into an operational physical attribute bank organized by field-proxy slots, using observable motion as a kinematic anchor for constructing less directly observed proxies. To handle the heterogeneity of real-world dynamics, PILA adopts a mixture-of-experts design over physical categories. Label-prior masked expert routing selects category-specific operator experts, whose refinements are regularized by operational residuals abstracted from physical relations. Finally, the refined proxies are fused into the physical attribute bank and decoded into a correction to the flow-matching vector field, injecting physics-aware guidance while preserving the visual prior of the pretrained backbone. With staged adapter training on Wan 2.1-1.3B and direct transfer of the learned adapter to Wan 2.2-14B, PILA achieves state-of-the-art results on VBench-2.0, VideoPhy-2, and PhyGenBench in both visual quality and benchmark-measured physical plausibility.
- Abstract(参考訳): 大規模なビデオ生成モデルは、セマンティック一貫性と視覚的品質を著しく向上させ、一貫性と視覚的に説得力のあるビデオを生み出している。
それでも、ピクセルレベルのフィッティングによって引き起こされるダイナミクスは、実世界の動きと相互作用を管理する規則性を自然に満たさない。
この制限に対処するために,予め訓練されたビデオモデルのフローマッチング力学に物理構造付き潜伏誘導を注入するフレームワークである「textbf{PILA} (Physics-Informed Latent Alignment)」を提案する。
具体的には、PILAはまず、凍結生成体潜伏剤を、磁場-プロキシスロットによって構成された操作的物理的属性バンクにマッピングするために、固定されたフィールド推定を使用し、観測可能な運動を、直接的に観察されていないプロキシを構築するための運動的アンカーとして利用する。
現実世界の力学の不均一性に対処するために、PILAは物理カテゴリーを超越した実験的設計を採用する。
ラベル・プリンシパル・プリンシパル・プリンシパル・ルーティング(英語版)は、物理関係から抽象化された操作残差によって改善が正規化されるカテゴリ固有のオペレータ・エキスパートを選択する。
最後に、精製されたプロキシを物理属性バンクに融合してフローマッチングベクトルフィールドの補正にデコードし、予め訓練されたバックボーンの視覚的先行を保ちながら、物理認識誘導を注入する。
Wan 2.1-1.3Bのステージドアダプタトレーニングと学習したアダプタのWan 2.2-14Bへの直接転送により、PILAはVBench-2.0、VideoPhy-2、PhyGenBenchを視覚的品質とベンチマークで測定した物理的妥当性の両方で、最先端の結果を達成する。
関連論文リスト
- PhyCo: Learning Controllable Physical Priors for Generative Motion [55.59209981836171]
本稿では,ビデオ生成に連続的,解釈可能,物理的に接地された制御を導入するフレームワークであるPhyCoを紹介する。
i) 摩擦, 再構成, 変形, 力が様々なシナリオで体系的に変化する100K以上のフォトリアリスティック・シミュレーション・ビデオの大規模データセット, (ii) 物理制御された拡散モデルの微調整, (iii) VLM誘導報酬最適化, 微調整された視覚言語モデルにより、対象とする物理クエリを用いて生成されたビデオを評価し、異なるフィードバックを提供する。
論文 参考訳(メタデータ) (2026-04-30T17:53:03Z) - MMPhysVideo: Scaling Physical Plausibility in Video Generation via Joint Multimodal Modeling [55.72785604682579]
MMPhysVideoは、共同マルチモーダルモデリングにおけるビデオ生成における物理的可視性を拡大するフレームワークである。
MMPhysVideoは、様々なベンチマークで高度なモデルよりも、物理的な可視性と視覚的品質を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-03T07:32:24Z) - RoboForge: Physically Optimized Text-guided Whole-Body Locomotion for Humanoids [20.796118584632904]
自然言語と全身移動を橋渡しする統合潜在駆動型フレームワークを提案する。
我々のフレームワークは、テキスト誘導型ヒューマノイドインテリジェンスをデプロイするための実践的なパスを提供する。
論文 参考訳(メタデータ) (2026-03-18T17:02:56Z) - Out-of-distribution transfer of PDE foundation models to material dynamics under extreme loading [86.6550968435969]
ほとんどのPDEファンデーションモデルは、流体中心のベンチマークに基づいて事前訓練され、微調整されている。
衝撃, 進化する界面, 破壊が非平滑な場を生み出す2つの不連続支配的体制について, 分布外移動をベンチマークする。
我々は,PDE基礎モデルであるPOSEIDONとMORPHを2つのオープンソースとして評価し,事前学習した重みからの微調整と,トレーニングセットのサイズによるスクラッチからのトレーニングを比較し,分散シフト下でのサンプル効率の定量化を行った。
論文 参考訳(メタデータ) (2026-03-04T18:19:35Z) - ProPhy: Progressive Physical Alignment for Dynamic World Simulation [55.456455952212416]
ProPhyは、明示的な物理認識条件付けと異方性生成を可能にするプログレッシブ物理アライメントフレームワークである。
ProPhyは既存の最先端手法よりもリアルでダイナミックで物理的に一貫性のある結果が得られることを示す。
論文 参考訳(メタデータ) (2025-12-05T09:39:26Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - Migration as a Probe: A Generalizable Benchmark Framework for Specialist vs. Generalist Machine-Learned Force Fields [1.572216094651749]
機械学習力場(MLFF)は、分子動力学スケールでのアブ初期レベルの精度を実現することによって、計算材料科学を変革している。
研究者たちは、スペシャリストモデルをスクラッチから訓練するか、ファウンデーショナリストのファンデーションモデルを使うべきか、ハイブリッドアプローチを使うべきか?
本稿では, 弾性バンドトラジェクトリを用いて診断プローブとして評価する, 欠陥マイグレーション経路を用いたベンチマークフレームワークを提案する。
微調整モデルでは、運動特性に対するゼロショットおよびゼロショットのアプローチよりも大幅に優れるが、長距離物理学の部分的な損失を示す。
論文 参考訳(メタデータ) (2025-08-27T13:24:41Z) - PhysFormer++: Facial Video-based Physiological Measurement with SlowFast
Temporal Difference Transformer [76.40106756572644]
最近のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。
本稿では,PhysFormerとPhys++++をベースとした2つのエンドツーエンドビデオ変換器を提案する。
4つのベンチマークデータセットで総合的な実験を行い、時間内テストとクロスデータセットテストの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-07T15:56:03Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。