論文の概要: NewtonGen: Physics-Consistent and Controllable Text-to-Video Generation via Neural Newtonian Dynamics
- arxiv url: http://arxiv.org/abs/2509.21309v1
- Date: Thu, 25 Sep 2025 15:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.028151
- Title: NewtonGen: Physics-Consistent and Controllable Text-to-Video Generation via Neural Newtonian Dynamics
- Title(参考訳): NewtonGen:ニューラルニュートンダイナミクスによる物理一貫性と制御可能なテキスト・ビデオ生成
- Authors: Yu Yuan, Xijun Wang, Tharindu Wickremasinghe, Zeeshan Nadir, Bole Ma, Stanley H. Chan,
- Abstract要約: 我々は、データ駆動合成と学習可能な物理原理を統合するフレームワークであるNewtonGenを提案する。
コアにはトレーニング可能なニューラルニュートンダイナミクス(NND)があり、様々なニュートン運動をモデル化し予測することができる。
- 参考スコア(独自算出の注目度): 17.06880465123774
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A primary bottleneck in large-scale text-to-video generation today is physical consistency and controllability. Despite recent advances, state-of-the-art models often produce unrealistic motions, such as objects falling upward, or abrupt changes in velocity and direction. Moreover, these models lack precise parameter control, struggling to generate physically consistent dynamics under different initial conditions. We argue that this fundamental limitation stems from current models learning motion distributions solely from appearance, while lacking an understanding of the underlying dynamics. In this work, we propose NewtonGen, a framework that integrates data-driven synthesis with learnable physical principles. At its core lies trainable Neural Newtonian Dynamics (NND), which can model and predict a variety of Newtonian motions, thereby injecting latent dynamical constraints into the video generation process. By jointly leveraging data priors and dynamical guidance, NewtonGen enables physically consistent video synthesis with precise parameter control.
- Abstract(参考訳): 今日、大規模なテキスト・ビデオ生成の主要なボトルネックは、物理的な一貫性と制御性である。
近年の進歩にもかかわらず、最先端のモデルでは、物体が上向きに落ちたり、速度や方向の急激な変化など、非現実的な動きを生じることが多い。
さらに、これらのモデルには正確なパラメータ制御がなく、異なる初期条件下で物理的に一貫したダイナミクスを生成するのに苦労している。
この基本的な制限は、外見のみから運動分布を学習する現在のモデルに起因し、基礎となる力学の理解が欠如している、と我々は主張する。
本研究では,データ駆動合成と学習可能な物理原理を統合するフレームワークであるNewtonGenを提案する。
トレーニング可能なニューラルニュートンダイナミクス(NND)は、様々なニュートン運動をモデル化し、予測し、ビデオ生成プロセスに遅延動的制約を注入する。
データの優先順位と動的ガイダンスを併用することにより、NewtonGenは正確なパラメータ制御による物理的に一貫したビデオ合成を可能にする。
関連論文リスト
- Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation [54.42523027597904]
物理グラウンド映像予測のためのシンボル回帰と軌跡誘導映像(I2V)モデルを統合する新しいフレームワークを提案する。
提案手法は,入力ビデオから運動軌跡を抽出し,検索に基づく事前学習機構を用いて記号回帰を向上し,運動方程式を発見し,物理的に正確な将来の軌跡を予測する。
論文 参考訳(メタデータ) (2025-07-09T13:28:42Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Optimal-state Dynamics Estimation for Physics-based Human Motion Capture from Videos [6.093379844890164]
オンライン環境での運動学観測に物理モデルを選択的に組み込む新しい手法を提案する。
リカレントニューラルネットワークを導入し、キネマティックス入力とシミュレートされた動作を熱心にバランスするカルマンフィルタを実現する。
提案手法は,物理に基づく人間のポーズ推定作業に優れ,予測力学の物理的妥当性を示す。
論文 参考訳(メタデータ) (2024-10-10T10:24:59Z) - DROP: Dynamics Responses from Human Motion Prior and Projective Dynamics [21.00283279991885]
DROPは、生成的mOtionと射影力学を用いた人間のダイナミクス応答をモデリングするための新しいフレームワークである。
様々な動作タスクや様々な物理的摂動にまたがってモデルを広範囲に評価し、応答のスケーラビリティと多様性を実証する。
論文 参考訳(メタデータ) (2023-09-24T20:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。