論文の概要: VideoMerge: Towards Training-free Long Video Generation
- arxiv url: http://arxiv.org/abs/2503.09926v1
- Date: Thu, 13 Mar 2025 00:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:14.363484
- Title: VideoMerge: Towards Training-free Long Video Generation
- Title(参考訳): VideoMerge: トレーニング不要のロングビデオ生成を目指す
- Authors: Siyang Zhang, Harry Yang, Ser-Nam Lim,
- Abstract要約: 長いビデオ生成は、コンピュータビジョンにおける挑戦的で魅力的なトピックであり続けている。
本稿では,短時間のビデオのマージにシームレスに適応できるトレーニングフリーのVideoMergeを提案する。
- 参考スコア(独自算出の注目度): 46.108622251662176
- License:
- Abstract: Long video generation remains a challenging and compelling topic in computer vision. Diffusion based models, among the various approaches to video generation, have achieved state of the art quality with their iterative denoising procedures. However, the intrinsic complexity of the video domain renders the training of such diffusion models exceedingly expensive in terms of both data curation and computational resources. Moreover, these models typically operate on a fixed noise tensor that represents the video, resulting in predetermined spatial and temporal dimensions. Although several high quality open-source pretrained video diffusion models, jointly trained on images and videos of varying lengths and resolutions, are available, it is generally not recommended to specify a video length at inference that was not included in the training set. Consequently, these models are not readily adaptable to the direct generation of longer videos by merely increasing the specified video length. In addition to feasibility challenges, long-video generation also encounters quality issues. The domain of long videos is inherently more complex than that of short videos: extended durations introduce greater variability and necessitate long-range temporal consistency, thereby increasing the overall difficulty of the task. We propose VideoMerge, a training-free method that can be seamlessly adapted to merge short videos generated by pretrained text-to-video diffusion model. Our approach preserves the model's original expressiveness and consistency while allowing for extended duration and dynamic variation as specified by the user. By leveraging the strengths of pretrained models, our method addresses challenges related to smoothness, consistency, and dynamic content through orthogonal strategies that operate collaboratively to achieve superior quality.
- Abstract(参考訳): 長いビデオ生成は、コンピュータビジョンにおける挑戦的で魅力的なトピックであり続けている。
拡散に基づくモデルは、ビデオ生成の様々なアプローチの中で、反復的なデノケーション手順によって最先端の品質を達成している。
しかし、ビデオ領域の本質的な複雑さは、データキュレーションと計算資源の両方の観点から、そのような拡散モデルのトレーニングを非常に高価にしている。
さらに、これらのモデルは通常、ビデオを表す固定されたノイズテンソルで動作し、所定の空間的次元と時間的次元をもたらす。
いくつかの高品質なオープンソース事前訓練ビデオ拡散モデルが利用可能であるが、トレーニングセットに含まれていない推論でビデオ長を指定することは一般的に推奨されない。
したがって、これらのモデルは、指定されたビデオ長を単に増やすことで、より長いビデオの直接生成に容易に適応できない。
実現可能性の課題に加えて、長ビデオ生成も品質の問題に直面している。
長いビデオのドメインは、本質的に短いビデオのドメインよりも複雑である: 長い持続時間は、より大きな可変性を導入し、長期の時間的一貫性を必要とし、それによってタスクの全体的な困難を増大させる。
本稿では,事前訓練されたテキスト・ビデオ拡散モデルにより生成された短いビデオのマージにシームレスに適応可能な,トレーニング不要なVideoMergeを提案する。
提案手法では,モデルの本来の表現性や一貫性を保ちながら,ユーザが指定した拡張時間と動的変動を許容する。
本手法は,事前学習モデルの強みを生かして,より優れた品質を実現するために協調的に操作する直交戦略を通じて,滑らかさ,一貫性,動的コンテンツに関連する課題に対処する。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning [36.378348127629195]
ビデオ合成モデルのための新しいポストチューニング手法であるExVideoを提案する。
このアプローチは、現在のビデオ合成モデルの能力を向上し、時間的長期にわたってコンテンツを制作できるように設計されている。
当社のアプローチでは、40Kビデオからなるデータセット上でのトレーニングに15kのGPU時間しか必要とせず、オリジナルのフレーム数に対して最大5倍の価格で生成可能なモデル容量を拡大しています。
論文 参考訳(メタデータ) (2024-06-20T09:18:54Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。