論文の概要: PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.13809v1
- Date: Wed, 15 Oct 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.808521
- Title: PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning
- Title(参考訳): PhysMaster:強化学習による映像生成のための物理表現の習得
- Authors: Sihui Ji, Xi Chen, Xin Tao, Pengfei Wan, Hengshuang Zhao,
- Abstract要約: 現代のビデオ生成モデルは、視覚的にリアルなビデオを生成することができるが、物理法則に従わないことが多い。
本稿では,物理認識力を高めるため,映像生成モデルを導くための表現として,物理知識を捉えたPhysMasterを提案する。
- 参考スコア(独自算出の注目度): 49.88366485306749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models nowadays are capable of generating visually realistic videos, but often fail to adhere to physical laws, limiting their ability to generate physically plausible videos and serve as ''world models''. To address this issue, we propose PhysMaster, which captures physical knowledge as a representation for guiding video generation models to enhance their physics-awareness. Specifically, PhysMaster is based on the image-to-video task where the model is expected to predict physically plausible dynamics from the input image. Since the input image provides physical priors like relative positions and potential interactions of objects in the scenario, we devise PhysEncoder to encode physical information from it as an extra condition to inject physical knowledge into the video generation process. The lack of proper supervision on the model's physical performance beyond mere appearance motivates PhysEncoder to apply reinforcement learning with human feedback to physical representation learning, which leverages feedback from generation models to optimize physical representations with Direct Preference Optimization (DPO) in an end-to-end manner. PhysMaster provides a feasible solution for improving physics-awareness of PhysEncoder and thus of video generation, proving its ability on a simple proxy task and generalizability to wide-ranging physical scenarios. This implies that our PhysMaster, which unifies solutions for various physical processes via representation learning in the reinforcement learning paradigm, can act as a generic and plug-in solution for physics-aware video generation and broader applications.
- Abstract(参考訳): 現代のビデオ生成モデルは、視覚的にリアルなビデオを生成することができるが、物理法則に従わない場合が多く、物理的に可視なビデオを生成して「世界モデル」として機能する能力を制限する。
この問題に対処するため,PhysMasterを提案する。PhysMasterは,物理認識性を高めるための映像生成モデルを導くための表現として,物理知識を捉えている。
具体的には、PhysMasterは、入力画像から物理的に妥当なダイナミクスを予測するために、モデルが期待されるイメージ・ツー・ビデオタスクに基づいている。
入力画像は、シナリオ内のオブジェクトの相対的な位置や潜在的な相互作用のような物理的事前情報を提供するので、PhysEncoderは、映像生成プロセスに物理知識を注入するための余分な条件として、物理情報をエンコードする。
モデルが単なる外観以上の身体的パフォーマンスを適切に監督していないことは、PhysEncoderが人間のフィードバックによる強化学習を物理表現学習に適用することを動機付け、生成モデルからのフィードバックを活用して、直接優先度最適化(DPO)による物理的表現をエンドツーエンドに最適化する。
PhysMasterは、PhysEncoderの物理認識とビデオ生成を改善するための実現可能なソリューションを提供する。
このことは、強化学習パラダイムにおける表現学習を通じて様々な物理プロセスのソリューションを統合するPhysMasterが、物理対応のビデオ生成およびより広範なアプリケーションのための汎用的でプラグインのソリューションとして機能することを示唆している。
関連論文リスト
- LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。
本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。
実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T17:58:04Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments [55.465371691714296]
物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。
物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。
我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
論文 参考訳(メタデータ) (2025-04-03T15:21:17Z) - Synthetic Video Enhances Physical Fidelity in Video Synthesis [25.41774228022216]
コンピュータグラフィックスパイプラインから合成したビデオを利用して,映像生成モデルの物理忠実度を高める方法について検討する。
本稿では,合成データをキュレートして統合する手法を提案し,その物理リアリズムをモデルに転送する手法を提案する。
我々の研究は、合成ビデオがビデオ合成における物理的忠実性を高める最初の実証的なデモンストレーションの1つを提供する。
論文 参考訳(メタデータ) (2025-03-26T00:45:07Z) - PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。