論文の概要: ProPhy: Progressive Physical Alignment for Dynamic World Simulation
- arxiv url: http://arxiv.org/abs/2512.05564v1
- Date: Fri, 05 Dec 2025 09:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.982031
- Title: ProPhy: Progressive Physical Alignment for Dynamic World Simulation
- Title(参考訳): Prophy: 動的世界シミュレーションのための進歩的物理アライメント
- Authors: Zijun Wang, Panwen Hu, Jing Wang, Terry Jingchen Zhang, Yuhao Cheng, Long Chen, Yiqiang Yan, Zutao Jiang, Hanhui Li, Xiaodan Liang,
- Abstract要約: ProPhyは、明示的な物理認識条件付けと異方性生成を可能にするプログレッシブ物理アライメントフレームワークである。
ProPhyは既存の最先端手法よりもリアルでダイナミックで物理的に一貫性のある結果が得られることを示す。
- 参考スコア(独自算出の注目度): 55.456455952212416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video generation have shown remarkable potential for constructing world simulators. However, current models still struggle to produce physically consistent results, particularly when handling large-scale or complex dynamics. This limitation arises primarily because existing approaches respond isotropically to physical prompts and neglect the fine-grained alignment between generated content and localized physical cues. To address these challenges, we propose ProPhy, a Progressive Physical Alignment Framework that enables explicit physics-aware conditioning and anisotropic generation. ProPhy employs a two-stage Mixture-of-Physics-Experts (MoPE) mechanism for discriminative physical prior extraction, where Semantic Experts infer semantic-level physical principles from textual descriptions, and Refinement Experts capture token-level physical dynamics. This mechanism allows the model to learn fine-grained, physics-aware video representations that better reflect underlying physical laws. Furthermore, we introduce a physical alignment strategy that transfers the physical reasoning capabilities of vision-language models (VLMs) into the Refinement Experts, facilitating a more accurate representation of dynamic physical phenomena. Extensive experiments on physics-aware video generation benchmarks demonstrate that ProPhy produces more realistic, dynamic, and physically coherent results than existing state-of-the-art methods.
- Abstract(参考訳): 近年のビデオ生成の進歩は、世界シミュレータの構築に顕著な可能性を示している。
しかし、現在のモデルは、特に大規模または複雑な力学を扱う場合、物理的に一貫した結果を生み出すのに依然として苦労している。
この制限は、既存のアプローチが物理的プロンプトに等方的に応答し、生成されたコンテンツと局所化された物理キューの間の微粒なアライメントを無視しているために生じる。
これらの課題に対処するために,明示的な物理認識条件と異方性生成を可能にする進歩的物理アライメントフレームワークProPhyを提案する。
ProPhyは、2段階のMixture-of-Physics-Experts (MoPE) メカニズムを差別的な物理的事前抽出に使用し、セマンティックエキスパートはテキスト記述から意味レベルの物理原理を推論し、Refinement Expertsはトークンレベルの物理力学をキャプチャする。
このメカニズムにより、モデルは基礎となる物理法則をよりよく反映した、微粒で物理を意識したビデオ表現を学習することができる。
さらに,視覚言語モデル(VLM)の物理的推論能力をリファインメントエキスパートに伝達する物理アライメント戦略を導入し,動的物理現象のより正確な表現を容易にする。
物理を意識したビデオ生成ベンチマークに関する大規模な実験は、ProPhyが既存の最先端の手法よりも現実的でダイナミックで物理的に一貫性のある結果を生み出すことを示した。
関連論文リスト
- PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding [50.454084539837005]
PhysChoreoは、単一の画像から多様な制御性と物理的なリアリズムを持つビデオを生成する新しいフレームワークである。
本手法は2つの段階から構成される: まず, 画像中の全ての物体の静的初期特性を, 部分認識の物理的特性再構成により推定する。
そして、時間的に指示され、物理的に編集可能なシミュレーションを通じて、リッチな動的な振る舞いと物理的なリアリズムで高品質な動画を合成する。
論文 参考訳(メタデータ) (2025-11-25T17:59:04Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis [52.905353023326306]
物理的に妥当で多様な実演を合成し、効率的な世界モデルを学ぶためのフレームワークであるPhysWorldを提案する。
実験により、PhysWorldは、最新の最先端手法、すなわちPhysTwinよりも47倍高速な推論速度を実現しつつ、競争性能を持つことが示された。
論文 参考訳(メタデータ) (2025-10-24T13:25:39Z) - "PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models [38.14213802594432]
PhyWorldBenchは、物理法則に準拠したビデオ生成モデルを評価するために設計されたベンチマークである。
我々は、現実世界の物理学に故意に違反する「反物理学」という新しいカテゴリーを紹介した。
5つのオープンソースモデルと5つのプロプライエタリモデルを含む12の最先端のテキスト・ビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2025-07-17T17:54:09Z) - PhyMAGIC: Physical Motion-Aware Generative Inference with Confidence-guided LLM [17.554471769834453]
一つの画像から物理的に一貫した動きを生成するトレーニング不要のフレームワークであるPhyMAGICを提案する。
PhyMAGICは、事前訓練された画像間拡散モデル、LDMによる信頼誘導推論、微分可能な物理シミュレータを統合する。
総合的な実験により、PhyMAGICは最先端のビデオジェネレータや物理対応のベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-05-22T09:40:34Z) - PhyRecon: Physically Plausible Neural Scene Reconstruction [81.73129450090684]
PHYRECONは、微分可能なレンダリングと微分可能な物理シミュレーションの両方を利用して暗黙的な表面表現を学習する最初のアプローチである。
この設計の中心は、SDFに基づく暗黙の表現と明示的な表面点の間の効率的な変換である。
また,物理シミュレータの安定性も向上し,全データセットに対して少なくとも40%の改善が得られた。
論文 参考訳(メタデータ) (2024-04-25T15:06:58Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。