論文の概要: PhyCo: Learning Controllable Physical Priors for Generative Motion
- arxiv url: http://arxiv.org/abs/2604.28169v1
- Date: Thu, 30 Apr 2026 17:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.239089
- Title: PhyCo: Learning Controllable Physical Priors for Generative Motion
- Title(参考訳): PhyCo: 生成運動のための制御可能な物理的優先順位の学習
- Authors: Sriram Narayanan, Ziyu Jiang, Srinivasa Narasimhan, Manmohan Chandraker,
- Abstract要約: 本稿では,ビデオ生成に連続的,解釈可能,物理的に接地された制御を導入するフレームワークであるPhyCoを紹介する。
i) 摩擦, 再構成, 変形, 力が様々なシナリオで体系的に変化する100K以上のフォトリアリスティック・シミュレーション・ビデオの大規模データセット, (ii) 物理制御された拡散モデルの微調整, (iii) VLM誘導報酬最適化, 微調整された視覚言語モデルにより、対象とする物理クエリを用いて生成されたビデオを評価し、異なるフィードバックを提供する。
- 参考スコア(独自算出の注目度): 55.59209981836171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern video diffusion models excel at appearance synthesis but still struggle with physical consistency: objects drift, collisions lack realistic rebound, and material responses seldom match their underlying properties. We present PhyCo, a framework that introduces continuous, interpretable, and physically grounded control into video generation. Our approach integrates three key components: (i) a large-scale dataset of over 100K photorealistic simulation videos where friction, restitution, deformation, and force are systematically varied across diverse scenarios; (ii) physics-supervised fine-tuning of a pretrained diffusion model using a ControlNet conditioned on pixel-aligned physical property maps; and (iii) VLM-guided reward optimization, where a fine-tuned vision-language model evaluates generated videos with targeted physics queries and provides differentiable feedback. This combination enables a generative model to produce physically consistent and controllable outputs through variations in physical attributes-without any simulator or geometry reconstruction at inference. On the Physics-IQ benchmark, PhyCo significantly improves physical realism over strong baselines, and human studies confirm clearer and more faithful control over physical attributes. Our results demonstrate a scalable path toward physically consistent, controllable generative video models that generalize beyond synthetic training environments.
- Abstract(参考訳): 現代のビデオ拡散モデルは、外観合成において優れているが、物理的な一貫性に苦慮している:物体のドリフト、衝突は現実的なリバウンドを欠いている。
我々は、連続的、解釈可能、物理的に基底化された制御をビデオ生成に導入するフレームワークであるPhyCoを紹介する。
当社のアプローチでは,3つの重要なコンポーネントを統合しています。
(i)摩擦・再生・変形・力が多種多様なシナリオで体系的に変化する100K以上のフォトリアリスティック・シミュレーション・ビデオの大規模データセット。
(II)画素配置物理特性マップに条件付き制御ネットを用いた事前学習拡散モデルの物理制御による微調整
3) VLM誘導報酬最適化では、微調整された視覚言語モデルにより、対象とする物理クエリを用いて生成された映像を評価し、異なるフィードバックを提供する。
この組み合わせにより、生成モデルは、推論時のシミュレータや幾何再構成なしで、物理的属性の変動を通じて、物理的に一貫性があり制御可能な出力を生成することができる。
物理IQベンチマークでは、PhyCoは強いベースラインよりも物理的リアリズムを著しく改善し、人間の研究は物理的属性に対するより明確で忠実な制御を確認している。
以上の結果から, 合成学習環境を超越した, 物理的に一貫した, 制御可能な生成型ビデオモデルへの拡張性を示す。
関連論文リスト
- MMPhysVideo: Scaling Physical Plausibility in Video Generation via Joint Multimodal Modeling [55.72785604682579]
MMPhysVideoは、共同マルチモーダルモデリングにおけるビデオ生成における物理的可視性を拡大するフレームワークである。
MMPhysVideoは、様々なベンチマークで高度なモデルよりも、物理的な可視性と視覚的品質を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-03T07:32:24Z) - PhysAlign: Physics-Coherent Image-to-Video Generation through Feature and 3D Representation Alignment [23.066204478030627]
ビデオモデル(VDM)は、動的なシーンや環境をシミュレートするための有望なアプローチを提供する。
既存のモデルは、しばしば基本的な物理的直観に反する時間的に一貫性のないコンテンツを生成する。
物理コヒーレントな画像対ビデオI(2V)生成のための効率的なフレームワークであるPhysAlignを提案する。
論文 参考訳(メタデータ) (2026-03-14T05:44:18Z) - PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models [100.65199317765608]
物理原理は現実的な視覚シミュレーションには基本的だが、トランスフォーマーベースのビデオ生成において重要な監視対象である。
本研究では,物理衝突ルールを高次元空間に直接適用した映像生成モデルのための物理認識強化学習パラダイムを提案する。
このパラダイムを、MDcycle(Mimicry-Discovery Cycle)と呼ばれる統合フレームワークに拡張することで、大幅な微調整を可能にします。
論文 参考訳(メタデータ) (2026-01-16T08:40:10Z) - PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding [50.454084539837005]
PhysChoreoは、単一の画像から多様な制御性と物理的なリアリズムを持つビデオを生成する新しいフレームワークである。
本手法は2つの段階から構成される: まず, 画像中の全ての物体の静的初期特性を, 部分認識の物理的特性再構成により推定する。
そして、時間的に指示され、物理的に編集可能なシミュレーションを通じて、リッチな動的な振る舞いと物理的なリアリズムで高品質な動画を合成する。
論文 参考訳(メタデータ) (2025-11-25T17:59:04Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。
本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。
実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T17:58:04Z) - PhyMAGIC: Physical Motion-Aware Generative Inference with Confidence-guided LLM [17.554471769834453]
一つの画像から物理的に一貫した動きを生成するトレーニング不要のフレームワークであるPhyMAGICを提案する。
PhyMAGICは、事前訓練された画像間拡散モデル、LDMによる信頼誘導推論、微分可能な物理シミュレータを統合する。
総合的な実験により、PhyMAGICは最先端のビデオジェネレータや物理対応のベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-05-22T09:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。