論文の概要: MoAlign: Motion-Centric Representation Alignment for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.19022v1
- Date: Tue, 21 Oct 2025 19:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.526206
- Title: MoAlign: Motion-Centric Representation Alignment for Video Diffusion Models
- Title(参考訳): MoAlign:ビデオ拡散モデルのための動き中心表現アライメント
- Authors: Aritra Bhowmik, Denis Korzhenkov, Cees G. M. Snoek, Amirhossein Habibian, Mohsen Ghafoorian,
- Abstract要約: 本研究では、予め訓練されたビデオエンコーダから非交叉運動部分空間を学習する動き中心アライメントフレームワークを提案する。
この部分空間は、地表面の光学的流れを予測し、真の運動力学を捉えるよう最適化されている。
次に,テキスト間拡散モデルの潜在的特徴をこの新たなサブスペースに整合させ,生成モデルが動きの知識を内部化し,より高機能なビデオを生成することを可能にする。
- 参考スコア(独自算出の注目度): 50.162882483045045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video diffusion models have enabled high-quality video synthesis, yet often fail to generate temporally coherent and physically plausible motion. A key reason is the models' insufficient understanding of complex motions that natural videos often entail. Recent works tackle this problem by aligning diffusion model features with those from pretrained video encoders. However, these encoders mix video appearance and dynamics into entangled features, limiting the benefit of such alignment. In this paper, we propose a motion-centric alignment framework that learns a disentangled motion subspace from a pretrained video encoder. This subspace is optimized to predict ground-truth optical flow, ensuring it captures true motion dynamics. We then align the latent features of a text-to-video diffusion model to this new subspace, enabling the generative model to internalize motion knowledge and generate more plausible videos. Our method improves the physical commonsense in a state-of-the-art video diffusion model, while preserving adherence to textual prompts, as evidenced by empirical evaluations on VideoPhy, VideoPhy2, VBench, and VBench-2.0, along with a user study.
- Abstract(参考訳): テキストとビデオの拡散モデルは高品質なビデオ合成を可能にしたが、時間的に整合的で物理的に可視な動きを生成できないことが多い。
重要な理由は、天然ビデオがしばしば必要とする複雑な動きに対するモデルによる理解が不十分であるからである。
最近の研究は、拡散モデルの特徴と事前訓練されたビデオエンコーダの特徴とを合わせることでこの問題に対処している。
しかし、これらのエンコーダは映像の外観とダイナミクスを絡み合った特徴に混ぜ、そのようなアライメントの利点を制限している。
本稿では,予め訓練されたビデオエンコーダから乱れを学習する動き中心アライメントフレームワークを提案する。
この部分空間は、地表面の光学的流れを予測し、真の運動力学を捉えるよう最適化されている。
次に,テキスト間拡散モデルの潜在的特徴をこの新たなサブスペースに整合させ,生成モデルが動きの知識を内部化し,より高機能なビデオを生成することを可能にする。
提案手法は,ビデオPhy, VideoPhy2, VBench, VBench-2.0, VBench-2.0, およびユーザによる実証的な評価により, テキストプロンプトへの付着を保ちながら, 最先端の映像拡散モデルにおける物理コモンセンスを改善する。
関連論文リスト
- MotionCraft: Physics-based Zero-Shot Video Generation [22.33113030344355]
MotionCraftは物理ベースのリアルなビデオを作るためのゼロショットビデオジェネレータだ。
安定拡散のような画像拡散モデルのノイズ潜時空間を光学的流れを適用することにより、MotionCraftがワープできることが示される。
我々は,この手法を最先端のText2Video-Zeroレポートと比較し,質的,定量的に改善した。
論文 参考訳(メタデータ) (2024-05-22T11:44:57Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。
LLM-grounded Video Diffusion (LVD)を紹介する。
以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。