論文の概要: PhysVideo: Physically Plausible Video Generation with Cross-View Geometry Guidance
- arxiv url: http://arxiv.org/abs/2603.18639v1
- Date: Thu, 19 Mar 2026 09:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.048229
- Title: PhysVideo: Physically Plausible Video Generation with Cross-View Geometry Guidance
- Title(参考訳): PhysVideo: クロスビュー幾何学誘導による物理的にプラズブルなビデオ生成
- Authors: Cong Wang, Hanxin Zhu, Xiao Tang, Jiayi Luo, Xin Jin, Long Chen, Fei-Yue Wang, Zhibo Chen,
- Abstract要約: 物理対応ビデオを生成するフレームワークであるPhysVideoを提案する。
第一段階では、Phys4Viewは運動力学における物理的属性の影響を捉え、空間的時間的一貫性を高める。
第2段階では、生成した動画をガイダンスとして使用し、制御可能なビデオ合成のための前景ダイナミクスと背景コンテキストの相互作用を学習する。
- 参考スコア(独自算出の注目度): 31.104339154260312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in video generation has led to substantial improvements in visual fidelity, yet ensuring physically consistent motion remains a fundamental challenge. Intuitively, this limitation can be attributed to the fact that real-world object motion unfolds in three-dimensional space, while video observations provide only partial, view-dependent projections of such dynamics. To address these issues, we propose PhysVideo, a two-stage framework that first generates physics-aware orthogonal foreground videos and then synthesizes full videos with background. In the first stage, Phys4View leverages physics-aware attention to capture the influence of physical attributes on motion dynamics, and enhances spatio-temporal consistency by incorporating geometry-enhanced cross-view attention and temporal attention. In the second stage, VideoSyn uses the generated foreground videos as guidance and learns the interactions between foreground dynamics and background context for controllable video synthesis. To support training, we construct PhysMV, a dataset containing 40K scenes, each consisting of four orthogonal viewpoints, resulting in a total of 160K video sequences. Extensive experiments demonstrate that PhysVideo significantly improves physical realism and spatial-temporal coherence over existing video generation methods. Home page: https://anonymous.4open.science/w/Phys4D/.
- Abstract(参考訳): 映像生成の最近の進歩は、視覚的忠実度を大幅に向上させたが、身体的に一貫した動きを確実にすることが根本的な課題である。
直感的には、この制限は実世界の物体の動きが三次元空間に広がるという事実に起因し得るが、ビデオ観察はそのようなダイナミックスの部分的、ビュー依存的な射影のみを提供する。
これらの問題に対処するために,PhysVideoという2段階のフレームワークを提案する。
第一段階では、Phys4Viewは物理認識の注意を生かし、運動力学における物理特性の影響を捉え、幾何学的強化されたクロスビューアテンションと時間的アテンションを取り入れることで時空間一貫性を高める。
第2段階では、生成した前景映像をガイダンスとして使用し、制御可能なビデオ合成のための前景ダイナミクスと背景コンテキストの相互作用を学習する。
トレーニングを支援するために,4つの直交視点からなる40KシーンのデータセットであるPhysMVを構築した。
大規模な実験により、PhysVideoは既存のビデオ生成方法よりも物理リアリズムと空間的時間的コヒーレンスを大幅に改善することが示された。
ホームページ:https://anonymous.4open.science/w/Phys4D/。
関連論文リスト
- PhysAlign: Physics-Coherent Image-to-Video Generation through Feature and 3D Representation Alignment [23.066204478030627]
ビデオモデル(VDM)は、動的なシーンや環境をシミュレートするための有望なアプローチを提供する。
既存のモデルは、しばしば基本的な物理的直観に反する時間的に一貫性のないコンテンツを生成する。
物理コヒーレントな画像対ビデオI(2V)生成のための効率的なフレームワークであるPhysAlignを提案する。
論文 参考訳(メタデータ) (2026-03-14T05:44:18Z) - Physical Simulator In-the-Loop Video Generation [96.87054314612142]
Physical Simulator In-the-loop Video Generation (PSIVG)は、物理シミュレータをビデオ拡散プロセスに統合する新しいフレームワークである。
PSIVGは、視覚的品質と多様性を保ちながら、現実世界の物理に忠実なビデオを制作する。
論文 参考訳(メタデータ) (2026-03-06T15:48:25Z) - PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding [50.454084539837005]
PhysChoreoは、単一の画像から多様な制御性と物理的なリアリズムを持つビデオを生成する新しいフレームワークである。
本手法は2つの段階から構成される: まず, 画像中の全ての物体の静的初期特性を, 部分認識の物理的特性再構成により推定する。
そして、時間的に指示され、物理的に編集可能なシミュレーションを通じて、リッチな動的な振る舞いと物理的なリアリズムで高品質な動画を合成する。
論文 参考訳(メタデータ) (2025-11-25T17:59:04Z) - PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [53.06495362038348]
既存の世代モデルは、テキストや画像から写真リアリスティックなビデオを作るのに優れているが、物理的な可視性と3D制御性に欠けることが多い。
本稿では物理パラメータと力制御を備えた物理地上画像生成のための新しいフレームワークであるPhysCtrlを紹介する。
実験によると、PhysCtrlは現実的な物理地上の運動軌跡を生成し、画像とビデオのモデルを駆動する際に高忠実で制御可能なビデオを生成する。
論文 参考訳(メタデータ) (2025-09-24T17:58:04Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos [66.09921831504238]
ゲームプレイビデオにおける物理コモンセンス違反を評価するための先駆的ベンチマークとしてPhysGameを提案する。
以上の結果から,現在のオープンソースビデオLLMのパフォーマンスは,プロプライエタリビデオよりも大幅に遅れていることが明らかとなった。
このデータセットに基づいて,PhysVLMを物理知識強化ビデオLLMとして提案する。
論文 参考訳(メタデータ) (2024-12-02T18:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。