論文の概要: PhysAlign: Physics-Coherent Image-to-Video Generation through Feature and 3D Representation Alignment
- arxiv url: http://arxiv.org/abs/2603.13770v1
- Date: Sat, 14 Mar 2026 05:44:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.394073
- Title: PhysAlign: Physics-Coherent Image-to-Video Generation through Feature and 3D Representation Alignment
- Title(参考訳): PhysAlign: 特徴と3D表現のアライメントによる物理コヒーレントな画像から映像生成
- Authors: Zhexiao Xiong, Yizhi Song, Liu He, Wei Xiong, Yu Yuan, Feng Qiao, Nathan Jacobs,
- Abstract要約: ビデオモデル(VDM)は、動的なシーンや環境をシミュレートするための有望なアプローチを提供する。
既存のモデルは、しばしば基本的な物理的直観に反する時間的に一貫性のないコンテンツを生成する。
物理コヒーレントな画像対ビデオI(2V)生成のための効率的なフレームワークであるPhysAlignを提案する。
- 参考スコア(独自算出の注目度): 23.066204478030627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Diffusion Models (VDMs) offer a promising approach for simulating dynamic scenes and environments, with broad applications in robotics and media generation. However, existing models often generate temporally incoherent content that violates basic physical intuition, significantly limiting their practical applicability. We propose PhysAlign, an efficient framework for physics-coherent image-to-video (I2V) generation that explicitly addresses this limitation. To overcome the critical scarcity of physics-annotated videos, we first construct a fully controllable synthetic data generation pipeline based on rigid-body simulation, yielding a highly-curated dataset with accurate, fine-grained physics and 3D annotations. Leveraging this data, PhysAlign constructs a unified physical latent space by coupling explicit 3D geometry constraints with a Gram-based spatio-temporal relational alignment that extracts kinematic priors from video foundation models. Extensive experiments demonstrate that PhysAlign significantly outperforms existing VDMs on tasks requiring complex physical reasoning and temporal stability, without compromising zero-shot visual quality. PhysAlign shows the potential to bridge the gap between raw visual synthesis and rigid-body kinematics, establishing a practical paradigm for genuinely physics-grounded video generation. The project page is available at https://physalign.github.io/PhysAlign.
- Abstract(参考訳): ビデオ拡散モデル(VDM)は、ダイナミックなシーンや環境をシミュレートするための有望なアプローチを提供する。
しかし、既存のモデルはしばしば、基本的な物理的直観に反する時間的に一貫性のないコンテンツを生成し、実用性を大幅に制限する。
本稿では、物理コヒーレントな画像対ビデオ生成(I2V)のための効率的なフレームワークであるPhysAlignを提案する。
物理アノテーション付きビデオの致命的不足を克服するため,我々はまず,剛体シミュレーションに基づく完全制御可能な合成データ生成パイプラインを構築し,高精度できめ細かな物理と3Dアノテーションを備えた高精度なデータセットを作成した。
このデータを活用して、PhysAlignは、明示的な3次元幾何学的制約とグラムベースの時空間的関係性アライメントを結合することにより、統合された物理潜在空間を構築し、ビデオ基盤モデルからキネマティック事前を抽出する。
広汎な実験により、PhysAlignは、ゼロショットの視覚的品質を損なうことなく、複雑な物理的推論と時間的安定性を必要とするタスクにおいて、既存のVDMを著しく上回ります。
PhysAlignは、生の視覚合成と剛体運動学のギャップを埋める可能性を示し、真の物理地上ビデオ生成の実践的パラダイムを確立した。
プロジェクトページはhttps://physalign.github.io/PhysAlign.comで公開されている。
関連論文リスト
- Physical Simulator In-the-Loop Video Generation [96.87054314612142]
Physical Simulator In-the-loop Video Generation (PSIVG)は、物理シミュレータをビデオ拡散プロセスに統合する新しいフレームワークである。
PSIVGは、視覚的品質と多様性を保ちながら、現実世界の物理に忠実なビデオを制作する。
論文 参考訳(メタデータ) (2026-03-06T15:48:25Z) - PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models [100.65199317765608]
物理原理は現実的な視覚シミュレーションには基本的だが、トランスフォーマーベースのビデオ生成において重要な監視対象である。
本研究では,物理衝突ルールを高次元空間に直接適用した映像生成モデルのための物理認識強化学習パラダイムを提案する。
このパラダイムを、MDcycle(Mimicry-Discovery Cycle)と呼ばれる統合フレームワークに拡張することで、大幅な微調整を可能にします。
論文 参考訳(メタデータ) (2026-01-16T08:40:10Z) - PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image [67.76547268461411]
PhysX-Anythingは最初のシミュレーション可能な物理3D生成フレームワークである。
高品質なsim-ready 3Dアセットを明示的な幾何学、調音、物理的特性で生成する。
トークンの数を193倍に減らし、標準VLMトークン予算内で明示的な幾何学的学習を可能にする。
論文 参考訳(メタデータ) (2025-11-17T17:59:53Z) - PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。
本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。
実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T17:58:04Z) - PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis [37.21119648359889]
PhysGMはフィードフォワードフレームワークであり、単一の画像から3次元ガウス表現とその物理的特性を共同で予測する。
1分で1枚の画像から高忠実度4Dシミュレーションを効果的に生成する。
論文 参考訳(メタデータ) (2025-08-19T15:10:30Z) - PhysMotion: Physics-Grounded Dynamics From a Single Image [24.096925413047217]
本稿では、物理シミュレーションを利用した新しいフレームワークであるPhysMotionを紹介し、一つの画像と入力条件から生成された中間3次元表現をガイドする。
我々のアプローチは、従来のデータ駆動生成モデルの限界に対処し、より一貫した物理的に妥当な動きをもたらす。
論文 参考訳(メタデータ) (2024-11-26T07:59:11Z) - PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。