論文の概要: LaMo: Self-Supervised Latent Motion Priors for Physical Realism in Video Generation
- arxiv url: http://arxiv.org/abs/2605.23878v1
- Date: Fri, 22 May 2026 17:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.449685
- Title: LaMo: Self-Supervised Latent Motion Priors for Physical Realism in Video Generation
- Title(参考訳): LaMo:ビデオ生成における物理リアリズムに先立つ自己監督型ラテントモーション
- Authors: Bo Jiang, Depu Meng, Yihan Hu, Yichen Xie, Tianshuo Xu, Wei Zhan,
- Abstract要約: 本稿では,現在の潜時とプロンプトに条件付きフレーム間潜時変化に先立って潜時動作を定式化するLaMoを提案する。
LaMoは既存のビデオ拡散バックボーンとプラグイン・アンド・プレイされており、アーキテクチャやI/Oの変更は不要である。
VideoPhyとVideoPhy2では、LaMoはCogVideoXバックボーンを改善し、外部監視を使用する最近の物理認識ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 24.8120698643545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern video generators produce visually compelling clips but still struggle with physical and motion consistency, limiting their use as reliable world simulators. Existing remedies often rely on external simulators, teacher models, or curated physics-focused data. We explore a complementary self-supervised direction: extracting motion cues from the unlabeled videos already used to train video diffusion models. We propose LaMo, which formulates a latent motion prior over frame-to-frame latent changes conditioned on the current latent and prompt. This prior is exposed through two lightweight readouts: a macro motion drift used during training as a Motion Drift Loss, and a learned micro motion field used during sampling as Motion Prior Guidance. Both components are plug-and-play with existing video diffusion backbones, requiring no architectural or I/O changes. On VideoPhy and VideoPhy2, LaMo improves CogVideoX backbones and outperforms recent physics-aware baselines that use external supervision. On VBench, it preserves overall generation quality while improving motion-related dimensions. These results suggest that unlabeled video contains useful motion supervision for improving physical fidelity in modern video diffusion models.
- Abstract(参考訳): 現代のビデオジェネレータは、視覚的に魅力的なクリップを生成するが、物理と運動の整合性に苦慮し、信頼性の高い世界シミュレータとしての使用を制限する。
既存の治療法は、しばしば外部シミュレータ、教師モデル、または計算された物理データに依存している。
ビデオ拡散モデルのトレーニングにすでに使用されているラベルのないビデオから、モーションキューを抽出する。
本稿では,現在の潜時とプロンプトに条件付きフレーム間潜時変化に先立って潜時動作を定式化するLaMoを提案する。
この前者は2つの軽量な読み出しによって露呈される: 運動ドリフト損失として訓練中に使用されるマクロモーションドリフトと、サンプリング時に使用される学習されたマイクロモーションフィールドである。
どちらのコンポーネントも既存のビデオ拡散バックボーンとのプラグアンドプレイであり、アーキテクチャやI/Oの変更は不要である。
VideoPhyとVideoPhy2では、LaMoはCogVideoXバックボーンを改善し、外部監視を使用する最近の物理認識ベースラインを上回っている。
VBenchでは、モーション関連の寸法を改善しながら、全体の生成品質を保っている。
これらの結果から, ビデオ拡散モデルにおける物理忠実度向上のために, ラベルなし動画は, 運動の監視に有用であることが示唆された。
関連論文リスト
- Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MotionCraft: Physics-based Zero-Shot Video Generation [22.33113030344355]
MotionCraftは物理ベースのリアルなビデオを作るためのゼロショットビデオジェネレータだ。
安定拡散のような画像拡散モデルのノイズ潜時空間を光学的流れを適用することにより、MotionCraftがワープできることが示される。
我々は,この手法を最先端のText2Video-Zeroレポートと比較し,質的,定量的に改善した。
論文 参考訳(メタデータ) (2024-05-22T11:44:57Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。