論文の概要: LaMD: Latent Motion Diffusion for Video Generation
- arxiv url: http://arxiv.org/abs/2304.11603v1
- Date: Sun, 23 Apr 2023 10:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 17:34:53.442996
- Title: LaMD: Latent Motion Diffusion for Video Generation
- Title(参考訳): LaMD:ビデオ生成のための遅延モーション拡散
- Authors: Yaosi Hu, Zhenzhong Chen, Chong Luo
- Abstract要約: LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
- 参考スコア(独自算出の注目度): 69.4111397077229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating coherent and natural movement is the key challenge in video
generation. This research proposes to condense video generation into a problem
of motion generation, to improve the expressiveness of motion and make video
generation more manageable. This can be achieved by breaking down the video
generation process into latent motion generation and video reconstruction. We
present a latent motion diffusion (LaMD) framework, which consists of a
motion-decomposed video autoencoder and a diffusion-based motion generator, to
implement this idea. Through careful design, the motion-decomposed video
autoencoder can compress patterns in movement into a concise latent motion
representation. Meanwhile, the diffusion-based motion generator is able to
efficiently generate realistic motion on a continuous latent space under
multi-modal conditions, at a cost that is similar to that of image diffusion
models. Results show that LaMD generates high-quality videos with a wide range
of motions, from stochastic dynamics to highly controllable movements. It
achieves new state-of-the-art performance on benchmark datasets, including
BAIR, Landscape and CATER-GENs, for Image-to-Video (I2V) and
Text-Image-to-Video (TI2V) generation. The source code of LaMD will be made
available soon.
- Abstract(参考訳): コヒーレントで自然な動きを生み出すことが、ビデオ生成の鍵となる課題である。
本研究は,映像生成をモーション生成の問題に凝縮させ,映像の表現性を向上し,映像生成をより管理可能にすることを提案する。
これは、ビデオ生成プロセスを潜在運動生成とビデオ再構成に分解することで実現できる。
本稿では、このアイデアを実現するために、動画自動エンコーダと拡散に基づくモーションジェネレータからなる潜時移動拡散(LaMD)フレームワークを提案する。
注意深い設計により、モーション分解されたビデオオートエンコーダは、動きのパターンを簡潔な潜伏運動表現に圧縮することができる。
一方、拡散に基づく運動生成器は、画像拡散モデルに類似したコストで、多モード条件下で連続潜時空間上の現実的な動きを効率的に生成することができる。
その結果、LaMDは確率力学から高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
BAIR、ランドスケープ、CATER-GENsなどのベンチマークデータセットで、イメージ・トゥ・ビデオ(I2V)とテキスト・イメージ・トゥ・ビデオ(TI2V)生成のための新しい最先端のパフォーマンスを実現する。
LaMDのソースコードは近く公開される予定だ。
関連論文リスト
- ViMo: Generating Motions from Casual Videos [34.19904765033005]
ビデオから動画へ生成する新しいフレームワーク(ViMo)を提案する。
ViMoは、未完成のビデオコンテンツの膨大な量を生かして、多種多様な3Dモーションを作り出すことができる。
実験結果から、高速な動き、様々な視点、あるいは頻繁なオクルージョンが存在するビデオであっても、提案モデルが自然な動きを生成できることを示した。
論文 参考訳(メタデータ) (2024-08-13T03:57:35Z) - MotionCraft: Physics-based Zero-Shot Video Generation [22.33113030344355]
MotionCraftは物理ベースのリアルなビデオを作るためのゼロショットビデオジェネレータだ。
安定拡散のような画像拡散モデルのノイズ潜時空間を光学的流れを適用することにより、MotionCraftがワープできることが示される。
我々は,この手法を最先端のText2Video-Zeroレポートと比較し,質的,定量的に改善した。
論文 参考訳(メタデータ) (2024-05-22T11:44:57Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。