論文の概要: Physics-Guided Motion Loss for Video Generation Model
- arxiv url: http://arxiv.org/abs/2506.02244v2
- Date: Thu, 25 Sep 2025 20:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 16:35:18.902166
- Title: Physics-Guided Motion Loss for Video Generation Model
- Title(参考訳): 映像生成モデルのための物理誘導運動損失
- Authors: Bowen Xue, Giuseppe Claudio Guarnera, Shuang Zhao, Zahra Montazeri,
- Abstract要約: 現在のビデオ拡散モデルは視覚的に魅力的なコンテンツを生成するが、物理の基本法則に反することが多い。
モデルアーキテクチャを変更することなく、動きの可視性を向上する周波数領域物理を導入する。
- 参考スコア(独自算出の注目度): 8.083315267770255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video diffusion models generate visually compelling content but often violate basic laws of physics, producing subtle artifacts like rubber-sheet deformations and inconsistent object motion. We introduce a frequency-domain physics prior that improves motion plausibility without modifying model architectures. Our method decomposes common rigid motions (translation, rotation, scaling) into lightweight spectral losses, requiring only 2.7% of frequency coefficients while preserving 97%+ of spectral energy. Applied to Open-Sora, MVDIT, and Hunyuan, our approach improves both motion accuracy and action recognition by ~11% on average on OpenVID-1M (relative), while maintaining visual quality. User studies show 74--83% preference for our physics-enhanced videos. It also reduces warping error by 22--37% (depending on the backbone) and improves temporal consistency scores. These results indicate that simple, global spectral cues are an effective drop-in regularizer for physically plausible motion in video diffusion.
- Abstract(参考訳): 現在のビデオ拡散モデルは視覚的に魅力的なコンテンツを生成するが、しばしば物理学の基本法則に違反し、ゴムシートの変形や一貫性のない物体の動きのような微妙な人工物を生成する。
モデルアーキテクチャを変更することなく、動きの可視性を向上する周波数領域物理を導入する。
本手法は, 周波数係数の2.7%しか必要とせず, スペクトルエネルギーの97%以上を保ちながら, 一般的な剛性運動(翻訳, 回転, スケーリング)を軽量なスペクトル損失に分解する。
提案手法は,Open-Sora,MVDIT,Hunyuanに応用され,視覚的品質を維持しつつ,OpenVID-1M(相対的)で平均11%の動作精度と動作認識を向上する。
ユーザー調査では、物理学の強化されたビデオが74~83%好まれている。
また、ワープエラーを22~37%削減し(背骨に依存している)、時間的一貫性のスコアを改善する。
これらの結果から, 単純大域スペクトルキューは, 映像拡散における身体的可視運動に有効なドロップイン正規化器であることが示唆された。
関連論文リスト
- Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation [54.42523027597904]
物理グラウンド映像予測のためのシンボル回帰と軌跡誘導映像(I2V)モデルを統合する新しいフレームワークを提案する。
提案手法は,入力ビデオから運動軌跡を抽出し,検索に基づく事前学習機構を用いて記号回帰を向上し,運動方程式を発見し,物理的に正確な将来の軌跡を予測する。
論文 参考訳(メタデータ) (2025-07-09T13:28:42Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - MAGIC: Motion-Aware Generative Inference via Confidence-Guided LLM [14.522189177415724]
MAGICは、シングルイメージの物理特性推論と動的生成のためのトレーニング不要のフレームワークである。
本フレームワークは,静止画像からモーションリッチな映像を生成し,信頼度に基づくフィードバックループを通じて視覚と身体のギャップを埋める。
実験の結果,MAGICは既存の物理認識生成手法よりも精度が高く,時間的コヒーレンスも高いことがわかった。
論文 参考訳(メタデータ) (2025-05-22T09:40:34Z) - RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - PhysMotion: Physics-Grounded Dynamics From a Single Image [24.096925413047217]
本稿では、物理シミュレーションを利用した新しいフレームワークであるPhysMotionを紹介し、一つの画像と入力条件から生成された中間3次元表現をガイドする。
我々のアプローチは、従来のデータ駆動生成モデルの限界に対処し、より一貫した物理的に妥当な動きをもたらす。
論文 参考訳(メタデータ) (2024-11-26T07:59:11Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。