論文の概要: Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2507.06830v1
- Date: Wed, 09 Jul 2025 13:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.598191
- Title: Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation
- Title(参考訳): 軌道誘導画像-映像生成のための方程式探索による物理界運動予測
- Authors: Tao Feng, Xianbing Zhao, Zhenhua Chen, Tien Tsin Wong, Hamid Rezatofighi, Gholamreza Haffari, Lizhen Qu,
- Abstract要約: 物理グラウンド映像予測のためのシンボル回帰と軌跡誘導映像(I2V)モデルを統合する新しいフレームワークを提案する。
提案手法は,入力ビデオから運動軌跡を抽出し,検索に基づく事前学習機構を用いて記号回帰を向上し,運動方程式を発見し,物理的に正確な将来の軌跡を予測する。
- 参考スコア(独自算出の注目度): 54.42523027597904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion-based and autoregressive video generation models have achieved remarkable visual realism. However, these models typically lack accurate physical alignment, failing to replicate real-world dynamics in object motion. This limitation arises primarily from their reliance on learned statistical correlations rather than capturing mechanisms adhering to physical laws. To address this issue, we introduce a novel framework that integrates symbolic regression (SR) and trajectory-guided image-to-video (I2V) models for physics-grounded video forecasting. Our approach extracts motion trajectories from input videos, uses a retrieval-based pre-training mechanism to enhance symbolic regression, and discovers equations of motion to forecast physically accurate future trajectories. These trajectories then guide video generation without requiring fine-tuning of existing models. Evaluated on scenarios in Classical Mechanics, including spring-mass, pendulums, and projectile motions, our method successfully recovers ground-truth analytical equations and improves the physical alignment of generated videos over baseline methods.
- Abstract(参考訳): 拡散ベースおよび自己回帰ビデオ生成モデルの最近の進歩は、目覚ましい視覚リアリズムを実現している。
しかし、これらのモデルは典型的には正確な物理的アライメントを欠き、物体の動きに現実の力学を再現することができない。
この制限は主に、物理法則に固執するメカニズムを捉えるよりも、学習した統計的相関に依存することから生じる。
この問題に対処するために、物理地上映像予測のためのシンボル回帰(SR)と軌跡誘導映像(I2V)モデルを統合する新しいフレームワークを導入する。
提案手法は,入力ビデオから運動軌跡を抽出し,検索に基づく事前学習機構を用いて記号回帰を向上し,運動方程式を発見し,物理的に正確な将来の軌跡を予測する。
これらのトラジェクトリは、既存のモデルを微調整することなく、ビデオ生成をガイドする。
本手法は, スプリングマス, 振り子, 投射運動などの古典力学のシナリオを考慮し, 地下構造解析方程式の復元に成功し, ベースライン法による映像の物理的アライメントを改善する。
関連論文リスト
- MAGIC: Motion-Aware Generative Inference via Confidence-Guided LLM [14.522189177415724]
MAGICは、シングルイメージの物理特性推論と動的生成のためのトレーニング不要のフレームワークである。
本フレームワークは,静止画像からモーションリッチな映像を生成し,信頼度に基づくフィードバックループを通じて視覚と身体のギャップを埋める。
実験の結果,MAGICは既存の物理認識生成手法よりも精度が高く,時間的コヒーレンスも高いことがわかった。
論文 参考訳(メタデータ) (2025-05-22T09:40:34Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - Optimal-state Dynamics Estimation for Physics-based Human Motion Capture from Videos [6.093379844890164]
オンライン環境での運動学観測に物理モデルを選択的に組み込む新しい手法を提案する。
リカレントニューラルネットワークを導入し、キネマティックス入力とシミュレートされた動作を熱心にバランスするカルマンフィルタを実現する。
提案手法は,物理に基づく人間のポーズ推定作業に優れ,予測力学の物理的妥当性を示す。
論文 参考訳(メタデータ) (2024-10-10T10:24:59Z) - Learning Physics From Video: Unsupervised Physical Parameter Estimation for Continuous Dynamical Systems [49.11170948406405]
本研究では,単一のビデオから既知の連続制御方程式の物理パラメータを推定する教師なし手法を提案する。
Delfys75は5種類の動的システムのための75本のビデオからなる実世界のデータセットだ。
論文 参考訳(メタデータ) (2024-10-02T09:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。