論文の概要: DiffuseSlide: Training-Free High Frame Rate Video Generation Diffusion
- arxiv url: http://arxiv.org/abs/2506.01454v1
- Date: Mon, 02 Jun 2025 09:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.11639
- Title: DiffuseSlide: Training-Free High Frame Rate Video Generation Diffusion
- Title(参考訳): DiffuseSlide: トレーニング不要の高フレームレートビデオ生成拡散
- Authors: Geunmin Hwang, Hyun-kyu Ko, Younghyun Kim, Seungryong Lee, Eunbyung Park,
- Abstract要約: 本稿では,事前学習した拡散モデルを用いた高速FPSビデオ生成のためのトレーニング不要な手法を提案する。
我々の手法であるDiffuseSlideは、低FPSビデオから鍵フレームを活用する新しいパイプラインを導入し、ノイズリジェクションやスライディングウインドウ遅延デノイングといった革新的な手法を適用した。
広範にわたる実験により,提案手法は映像品質を著しく改善し,時間的コヒーレンスと空間的忠実度を向上することを示した。
- 参考スコア(独自算出の注目度): 4.863177884263436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in diffusion models have revolutionized video generation, enabling the creation of high-quality, temporally consistent videos. However, generating high frame-rate (FPS) videos remains a significant challenge due to issues such as flickering and degradation in long sequences, particularly in fast-motion scenarios. Existing methods often suffer from computational inefficiencies and limitations in maintaining video quality over extended frames. In this paper, we present a novel, training-free approach for high FPS video generation using pre-trained diffusion models. Our method, DiffuseSlide, introduces a new pipeline that leverages key frames from low FPS videos and applies innovative techniques, including noise re-injection and sliding window latent denoising, to achieve smooth, consistent video outputs without the need for additional fine-tuning. Through extensive experiments, we demonstrate that our approach significantly improves video quality, offering enhanced temporal coherence and spatial fidelity. The proposed method is not only computationally efficient but also adaptable to various video generation tasks, making it ideal for applications such as virtual reality, video games, and high-quality content creation.
- Abstract(参考訳): 拡散モデルの最近の進歩は、ビデオ生成に革命をもたらし、高品質で時間的に一貫したビデオの作成を可能にした。
しかし、フレームレート(FPS)ビデオの生成は、特に速い動きのシナリオにおいて、長いシーケンスのフリッカリングや劣化などの問題のために、依然として重大な課題である。
既存の手法はしばしば、拡張フレーム上のビデオ品質を維持する際の計算の非効率さと制限に悩まされる。
本稿では,事前学習した拡散モデルを用いた高速FPSビデオ生成のための,新しいトレーニング不要な手法を提案する。
我々の手法であるDiffuseSlideは、低FPSビデオからキーフレームを活用する新しいパイプラインを導入し、ノイズリジェクションやスライディングウィンドウ遅延デノイングなどの革新的な技術を適用し、スムーズで一貫したビデオ出力を実現する。
広範にわたる実験により,提案手法は映像品質を著しく改善し,時間的コヒーレンスと空間的忠実度を向上することを示した。
提案手法は, 計算効率だけでなく, 様々な映像生成タスクにも適応し, 仮想現実, ビデオゲーム, 高品質コンテンツ作成などの応用に最適である。
関連論文リスト
- Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。