論文の概要: Motion aware video generative model
- arxiv url: http://arxiv.org/abs/2506.02244v1
- Date: Mon, 02 Jun 2025 20:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.372729
- Title: Motion aware video generative model
- Title(参考訳): モーションアウェアメント映像生成モデル
- Authors: Bowen Xue, Giuseppe Claudio Guarnera, Shuang Zhao, Zahra Montazeri,
- Abstract要約: 拡散に基づくビデオ生成は、視覚内容とセマンティックコヒーレンスに前例のない品質をもたらす。
現在のアプローチは、基礎となる運動物理学を明示的にモデル化することなく、統計的学習に依存している。
本稿では、物理インフォームド周波数領域を用いて、生成したビデオの物理的妥当性を高める手法を提案する。
- 参考スコア(独自算出の注目度): 12.5036873986483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion-based video generation have yielded unprecedented quality in visual content and semantic coherence. However, current approaches predominantly rely on statistical learning from vast datasets without explicitly modeling the underlying physics of motion, resulting in subtle yet perceptible non-physical artifacts that diminish the realism of generated videos. This paper introduces a physics-informed frequency domain approach to enhance the physical plausibility of generated videos. We first conduct a systematic analysis of the frequency-domain characteristics of diverse physical motions (translation, rotation, scaling), revealing that each motion type exhibits distinctive and identifiable spectral signatures. Building on this theoretical foundation, we propose two complementary components: (1) a physical motion loss function that quantifies and optimizes the conformity of generated videos to ideal frequency-domain motion patterns, and (2) a frequency domain enhancement module that progressively learns to adjust video features to conform to physical motion constraints while preserving original network functionality through a zero-initialization strategy. Experiments across multiple video diffusion architectures demonstrate that our approach significantly enhances motion quality and physical plausibility without compromising visual quality or semantic alignment. Our frequency-domain physical motion framework generalizes effectively across different video generation architectures, offering a principled approach to incorporating physical constraints into deep learning-based video synthesis pipelines. This work seeks to establish connections between data-driven models and physics-based motion models.
- Abstract(参考訳): 拡散に基づくビデオ生成の最近の進歩は、視覚内容とセマンティックコヒーレンスに前例のない品質をもたらしている。
しかし、現在のアプローチは、基盤となる運動の物理を明示的にモデル化することなく、膨大なデータセットからの統計的学習に大きく依存しているため、微妙だが知覚可能な非物理的アーティファクトが生成したビデオのリアリズムを低下させる。
本稿では、物理インフォームド周波数領域を用いて、生成したビデオの物理的妥当性を高める手法を提案する。
まず、様々な物理運動の周波数領域特性(翻訳、回転、スケーリング)を系統的に解析し、各運動タイプが特異かつ識別可能なスペクトルシグネチャを示すことを示した。
本理論に基づいて,(1)生成した映像の理想的な周波数領域動作パターンへの適合性を定量化し,最適化する物理運動損失関数,(2)ゼロ初期化戦略により元のネットワーク機能を保ちながら,映像特徴を物理運動制約に適合するように漸進的に調整する周波数領域拡張モジュール,の2つの相補的要素を提案する。
複数のビデオ拡散アーキテクチャを用いた実験により,視覚的品質やセマンティックアライメントを損なうことなく,動作品質と身体的可視性を著しく向上することが示された。
我々の周波数領域物理モーションフレームワークは、様々なビデオ生成アーキテクチャを効果的に一般化し、深層学習に基づくビデオ合成パイプラインに物理制約を組み込むための原則化されたアプローチを提供する。
この研究は、データ駆動モデルと物理に基づく運動モデルとの接続を確立することを目的としている。
関連論文リスト
- MAGIC: Motion-Aware Generative Inference via Confidence-Guided LLM [14.522189177415724]
MAGICは、シングルイメージの物理特性推論と動的生成のためのトレーニング不要のフレームワークである。
本フレームワークは,静止画像からモーションリッチな映像を生成し,信頼度に基づくフィードバックループを通じて視覚と身体のギャップを埋める。
実験の結果,MAGICは既存の物理認識生成手法よりも精度が高く,時間的コヒーレンスも高いことがわかった。
論文 参考訳(メタデータ) (2025-05-22T09:40:34Z) - RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - PhysMotion: Physics-Grounded Dynamics From a Single Image [24.096925413047217]
本稿では、物理シミュレーションを利用した新しいフレームワークであるPhysMotionを紹介し、一つの画像と入力条件から生成された中間3次元表現をガイドする。
我々のアプローチは、従来のデータ駆動生成モデルの限界に対処し、より一貫した物理的に妥当な動きをもたらす。
論文 参考訳(メタデータ) (2024-11-26T07:59:11Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。