論文の概要: LumosFlow: Motion-Guided Long Video Generation
- arxiv url: http://arxiv.org/abs/2506.02497v1
- Date: Tue, 03 Jun 2025 06:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.316406
- Title: LumosFlow: Motion-Guided Long Video Generation
- Title(参考訳): LumosFlow:モーションガイド付きロングビデオジェネレーション
- Authors: Jiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su,
- Abstract要約: エンターテイメントやシミュレーションなどの分野で広く利用されていることから、長いビデオ生成が注目を集めている。
我々は階層的な長いビデオ生成パイプラインを再考し、モーションガイダンスを明示的に導入するフレームワークであるLumosFlowを紹介した。
従来のビデオフレームと比較して、15倍の精度で、隣接するフレーム間の合理的かつ連続的な動きを保証します。
- 参考スコア(独自算出の注目度): 31.63126037070182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long video generation has gained increasing attention due to its widespread applications in fields such as entertainment and simulation. Despite advances, synthesizing temporally coherent and visually compelling long sequences remains a formidable challenge. Conventional approaches often synthesize long videos by sequentially generating and concatenating short clips, or generating key frames and then interpolate the intermediate frames in a hierarchical manner. However, both of them still remain significant challenges, leading to issues such as temporal repetition or unnatural transitions. In this paper, we revisit the hierarchical long video generation pipeline and introduce LumosFlow, a framework introduce motion guidance explicitly. Specifically, we first employ the Large Motion Text-to-Video Diffusion Model (LMTV-DM) to generate key frames with larger motion intervals, thereby ensuring content diversity in the generated long videos. Given the complexity of interpolating contextual transitions between key frames, we further decompose the intermediate frame interpolation into motion generation and post-hoc refinement. For each pair of key frames, the Latent Optical Flow Diffusion Model (LOF-DM) synthesizes complex and large-motion optical flows, while MotionControlNet subsequently refines the warped results to enhance quality and guide intermediate frame generation. Compared with traditional video frame interpolation, we achieve 15x interpolation, ensuring reasonable and continuous motion between adjacent frames. Experiments show that our method can generate long videos with consistent motion and appearance. Code and models will be made publicly available upon acceptance. Our project page: https://jiahaochen1.github.io/LumosFlow/
- Abstract(参考訳): エンターテイメントやシミュレーションなどの分野で広く利用されていることから、長いビデオ生成が注目を集めている。
進歩にもかかわらず、時間的にコヒーレントで視覚的に説得力のあるロングシーケンスを合成することは、依然として恐ろしい課題である。
従来のアプローチでは、短いクリップを逐次生成・連結したり、キーフレームを生成して、中間フレームを階層的に補間することで、長いビデオを合成することが多い。
しかし、両者は依然として重要な課題であり、時間的反復や不自然な遷移といった問題に繋がる。
本稿では,階層長ビデオ生成パイプラインを再考し,動き誘導を明示的に導入するフレームワークであるLumosFlowを紹介する。
具体的には、まずLarge Motion Text-to-Video Diffusion Model(LMTV-DM)を用いて、より大きな動き間隔を持つキーフレームを生成し、生成した長ビデオのコンテンツ多様性を確保する。
キーフレーム間のコンテキスト遷移を補間する複雑性を考えると、中間フレーム補間を運動生成とポストホック改善に分解する。
それぞれのキーフレームに対して、Lastnt Optical Flow Diffusion Model (LOF-DM) は複雑な光フローと大動きの光フローを合成し、MotionControlNetはその後、歪んだ結果を洗練して品質を高め、中間フレーム生成を誘導する。
従来のビデオフレーム補間と比較して、15倍の補間を実現し、隣接するフレーム間の合理的かつ連続的な動きを保証する。
実験により,一貫した動きと外観で長い映像を生成できることが確認された。
コードとモデルは受け入れ次第公開されます。
プロジェクトページ:https://jiahaochen1.github.io/LumosFlow/
関連論文リスト
- Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - VideoComposer: Compositional Video Synthesis with Motion Controllability [52.4714732331632]
VideoComposerを使えば、ユーザーはテキストの条件や空間的条件、さらに重要な時間的条件でビデオを柔軟に組み立てることができる。
圧縮ビデオからの運動ベクトルを明示的な制御信号として導入し、時間的ダイナミクスに関するガイダンスを提供する。
さらに、逐次入力の空間的・時間的関係を効果的に組み込むために、統一インターフェースとして機能する時空間条件エンコーダ(STC-エンコーダ)を開発した。
論文 参考訳(メタデータ) (2023-06-03T06:29:02Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。