論文の概要: Brick-Diffusion: Generating Long Videos with Brick-to-Wall Denoising
- arxiv url: http://arxiv.org/abs/2501.02741v1
- Date: Mon, 06 Jan 2025 03:19:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:10.238920
- Title: Brick-Diffusion: Generating Long Videos with Brick-to-Wall Denoising
- Title(参考訳): Brick-Diffusion:Brick-to-Wall Denoisingによるロングビデオの生成
- Authors: Yunlong Yuan, Yuanfan Guo, Chunwei Wang, Hang Xu, Li Zhang,
- Abstract要約: Brick-Diffusionは、任意の長さの長いビデオを生成することができる訓練不要のアプローチである。
提案手法では, ブロック・ツー・ウォール・デノナイズ戦略を導入し, 潜伏剤をセグメントにデノナイズし, その後の繰り返しにストライドを適用した。
- 参考スコア(独自算出の注目度): 31.25745443616217
- License:
- Abstract: Recent advances in diffusion models have greatly improved text-driven video generation. However, training models for long video generation demands significant computational power and extensive data, leading most video diffusion models to be limited to a small number of frames. Existing training-free methods that attempt to generate long videos using pre-trained short video diffusion models often struggle with issues such as insufficient motion dynamics and degraded video fidelity. In this paper, we present Brick-Diffusion, a novel, training-free approach capable of generating long videos of arbitrary length. Our method introduces a brick-to-wall denoising strategy, where the latent is denoised in segments, with a stride applied in subsequent iterations. This process mimics the construction of a staggered brick wall, where each brick represents a denoised segment, enabling communication between frames and improving overall video quality. Through quantitative and qualitative evaluations, we demonstrate that Brick-Diffusion outperforms existing baseline methods in generating high-fidelity videos.
- Abstract(参考訳): 拡散モデルの最近の進歩は、テキスト駆動のビデオ生成を大幅に改善した。
しかし、長いビデオ生成のためのトレーニングモデルは計算能力と膨大なデータを必要とするため、ほとんどのビデオ拡散モデルは少数のフレームに制限される。
事前訓練された短いビデオ拡散モデルを用いて長いビデオを生成しようとする既存の訓練なしの手法は、運動力学の不足や画質低下といった問題に悩まされることが多い。
本稿ではBrick-Diffusionについて述べる。これは、任意の長さの長いビデオを生成することができる、新しいトレーニング不要のアプローチである。
提案手法では, ブロック・ツー・ウォール・デノナイズ戦略を導入し, 潜伏剤をセグメントにデノナイズし, その後の繰り返しにストライドを適用した。
このプロセスは、各レンガが識別されたセグメントを表現し、フレーム間の通信を可能にし、全体的なビデオ品質を向上させる、スタッガーされたレンガの壁の構築を模倣する。
定量的および定性的な評価により,Brick-Diffusionは,高忠実度ビデオの生成において,既存のベースライン法よりも優れていることを示す。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Noise Crystallization and Liquid Noise: Zero-shot Video Generation using Image Diffusion Models [6.408114351192012]
ビデオモデルは広範なトレーニングと計算資源を必要とし、高いコストと環境への影響をもたらす。
本稿では、画像拡散モデルを拡張して、細部を保ちながら連続的なアニメーションフレームを作成することによって、映像生成に新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-05T12:53:05Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Low Light Video Enhancement by Learning on Static Videos with
Cross-Frame Attention [10.119600046984088]
静的ビデオ上でのモデルトレーニングにより,低光度映像強調のための深層学習法を開発した。
既存の方法はフレーム単位で動作し、隣接するフレーム間の関係を利用できない。
本手法は,静的ビデオのみをトレーニングした場合に,他の最先端ビデオ強調アルゴリズムよりも優れることを示す。
論文 参考訳(メタデータ) (2022-10-09T15:49:46Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。