Fugu-MT 論文翻訳(概要): LaMD: Latent Motion Diffusion for Video Generation

論文の概要: LaMD: Latent Motion Diffusion for Video Generation

arxiv url: http://arxiv.org/abs/2304.11603v1
Date: Sun, 23 Apr 2023 10:32:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-25 17:34:53.442996
Title: LaMD: Latent Motion Diffusion for Video Generation
Title（参考訳）: LaMD:ビデオ生成のための遅延モーション拡散
Authors: Yaosi Hu, Zhenzhong Chen, Chong Luo
Abstract要約: LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
参考スコア（独自算出の注目度）: 69.4111397077229
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating coherent and natural movement is the key challenge in video generation. This research proposes to condense video generation into a problem of motion generation, to improve the expressiveness of motion and make video generation more manageable. This can be achieved by breaking down the video generation process into latent motion generation and video reconstruction. We present a latent motion diffusion (LaMD) framework, which consists of a motion-decomposed video autoencoder and a diffusion-based motion generator, to implement this idea. Through careful design, the motion-decomposed video autoencoder can compress patterns in movement into a concise latent motion representation. Meanwhile, the diffusion-based motion generator is able to efficiently generate realistic motion on a continuous latent space under multi-modal conditions, at a cost that is similar to that of image diffusion models. Results show that LaMD generates high-quality videos with a wide range of motions, from stochastic dynamics to highly controllable movements. It achieves new state-of-the-art performance on benchmark datasets, including BAIR, Landscape and CATER-GENs, for Image-to-Video (I2V) and Text-Image-to-Video (TI2V) generation. The source code of LaMD will be made available soon.
Abstract（参考訳）: コヒーレントで自然な動きを生み出すことが、ビデオ生成の鍵となる課題である。本研究は,映像生成をモーション生成の問題に凝縮させ,映像の表現性を向上し,映像生成をより管理可能にすることを提案する。これは、ビデオ生成プロセスを潜在運動生成とビデオ再構成に分解することで実現できる。本稿では、このアイデアを実現するために、動画自動エンコーダと拡散に基づくモーションジェネレータからなる潜時移動拡散(LaMD)フレームワークを提案する。注意深い設計により、モーション分解されたビデオオートエンコーダは、動きのパターンを簡潔な潜伏運動表現に圧縮することができる。一方、拡散に基づく運動生成器は、画像拡散モデルに類似したコストで、多モード条件下で連続潜時空間上の現実的な動きを効率的に生成することができる。その結果、LaMDは確率力学から高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。 BAIR、ランドスケープ、CATER-GENsなどのベンチマークデータセットで、イメージ・トゥ・ビデオ(I2V)とテキスト・イメージ・トゥ・ビデオ(TI2V)生成のための新しい最先端のパフォーマンスを実現する。 LaMDのソースコードは近く公開される予定だ。

関連論文リスト

RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。生成フェーズにおける検索機構の導入を提唱する。私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文参考訳（メタデータ） (2025-04-09T08:14:05Z)
Semantic Latent Motion for Portrait Video Generation [19.56640370303683]
Semantic Latent Motion (SeMo) はコンパクトで表現力のある動きの表現である。 SeMoは、抽象、推論、生成という3段階の効果的なフレームワークに従っている。我々のアプローチは、現実主義の81%の勝利率を持つ最先端モデルを上回る。
論文参考訳（メタデータ） (2025-03-13T06:43:21Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文参考訳（メタデータ） (2024-12-02T10:07:59Z)
ViMo: Generating Motions from Casual Videos [34.19904765033005]
ビデオから動画へ生成する新しいフレームワーク(ViMo)を提案する。 ViMoは、未完成のビデオコンテンツの膨大な量を生かして、多種多様な3Dモーションを作り出すことができる。実験結果から、高速な動き、様々な視点、あるいは頻繁なオクルージョンが存在するビデオであっても、提案モデルが自然な動きを生成できることを示した。
論文参考訳（メタデータ） (2024-08-13T03:57:35Z)
MotionCraft: Physics-based Zero-Shot Video Generation [22.33113030344355]
MotionCraftは物理ベースのリアルなビデオを作るためのゼロショットビデオジェネレータだ。安定拡散のような画像拡散モデルのノイズ潜時空間を光学的流れを適用することにより、MotionCraftがワープできることが示される。我々は,この手法を最先端のText2Video-Zeroレポートと比較し,質的,定量的に改善した。
論文参考訳（メタデータ） (2024-05-22T11:44:57Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。 MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文参考訳（メタデータ） (2023-12-08T16:31:04Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。 MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文参考訳（メタデータ） (2023-11-19T13:36:03Z)
A Good Image Generator Is What You Need for High-Resolution Video Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文参考訳（メタデータ） (2021-04-30T15:38:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。