PhyCo: Learning Controllable Physical Priors for Generative Motion
Abstractの概要
PhyCoは、摩擦、反発係数、変形、外力などの物理特性に対して連続的かつ解釈可能な条件付けを導入した、制御可能な動画生成フレームワークである。本手法は、10万本以上のフォトリアリスティックなシミュレーション動画のデータセット、事前学習済み拡散モデル(Cosmos-Predict2-2B)のControlNetベースの物理教師付きファインチューニング、および標的物理質問を用いたビジョン言語モデル(VLM)ガイドの報酬最適化を組み合わせている。物理特性は空間的に整列されたマップとして注入され、軌道のみのガイダンスではなく明示的な物理入力を通じてモーション挙動を変化させることを可能にする。本論文は、この設計が推論時にシミュレータや幾何学的再構成を必要とせずに、物理的一貫性と制御性を向上させると報告している。
新規性
本論文の主な新規性は、ControlNetを介した明示的で空間整列された物理特性マップ条件付けと、VLMベースの微分可能な報酬最適化を動画生成に組み合わせた点にある。また、複数の制御可能な物理属性(摩擦、反発係数、変形、力)でアノテーションされた大規模フォトリアリスティックシミュレーションデータセット(10万本以上の動画)を導入し、単一属性(例:力の方向)に焦点を当てたり、テスト時にシミュレーションに依存していた従来研究を超えている。
成果
Physics-IQベンチマークにおいて、PhyCoは外挿120フレーム生成で36.3、学習時評価条件で43.6のIQスコアを達成し、報告されたオープンソースベースラインを上回った。アブレーション実験では、ControlNet条件付けとVLM損失の追加が意図した物理属性への整合性を段階的に向上させることが示され、実世界動画における力の方向の精度はForce-Promptingの40.5°からPhyCoの15.2°へと改善した。16名の参加者による2AFC人間評価では、すべての制御属性において物理的リアリズムに関してPhyCoがベースラインより強く選好された。
論文の注目点
- PhyCoは、ControlNetアーキテクチャを用いて、事前学習済み動画拡散バックボーン(Cosmos-Predict2-2B)を摩擦、反発係数、変形、力のピクセル整列された物理特性マップで条件付けする。
- 学習パイプラインは、10万本以上のフォトリアリスティックシミュレーション動画による物理教師付きファインチューニングと、ファインチューニングされたQwen2.5-VL-3Bが標的物理クエリを通じて生成動画を評価するVLMガイド報酬最適化を組み合わせている。
- 実験では、より高いPhysics-IQスコア、大幅に正確な力方向制御(誤差15.2° vs. 40.5°)、および合成学習シーンを超えた実世界シナリオへの汎化を含む、ベースラインを上回る物理的リアリズムと制御性の向上が示された。
参考リンク
- arXiv: https://arxiv.org/abs/2604.28169v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2604.28169v1
- Hugging Face Papers: https://huggingface.co/papers/2604.28169
- Project: https://phyco-video.github.io/