Fugu-MT 論文翻訳(概要): Tuning-Free Long Video Generation via Global-Local Collaborative Diffusion

論文の概要: Tuning-Free Long Video Generation via Global-Local Collaborative Diffusion

arxiv url: http://arxiv.org/abs/2501.05484v1
Date: Wed, 08 Jan 2025 05:49:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.029072
Title: Tuning-Free Long Video Generation via Global-Local Collaborative Diffusion
Title（参考訳）: グローバルローカル協調拡散によるチューニング不要長ビデオ生成
Authors: Yongjia Ma, Junlin Chen, Donglin Di, Qi Xie, Lei Fan, Wei Chen, Xiaofei Gou, Na Zhao, Xun Yang,
Abstract要約: 本稿では,長時間ビデオ生成のためのチューニング不要なGLC-Diffusionを提案する。 Global-Local Collaborative Denoisingを確立することで、長いビデオDenoisingプロセスをモデル化する。また,ビデオモーション・コンシスタンス・リファインメント(VMCR)モジュールを提案する。
参考スコア（独自算出の注目度）: 22.988212617368095
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Creating high-fidelity, coherent long videos is a sought-after aspiration. While recent video diffusion models have shown promising potential, they still grapple with spatiotemporal inconsistencies and high computational resource demands. We propose GLC-Diffusion, a tuning-free method for long video generation. It models the long video denoising process by establishing denoising trajectories through Global-Local Collaborative Denoising to ensure overall content consistency and temporal coherence between frames. Additionally, we introduce a Noise Reinitialization strategy which combines local noise shuffling with frequency fusion to improve global content consistency and visual diversity. Further, we propose a Video Motion Consistency Refinement (VMCR) module that computes the gradient of pixel-wise and frequency-wise losses to enhance visual consistency and temporal smoothness. Extensive experiments, including quantitative and qualitative evaluations on videos of varying lengths (\textit{e.g.}, 3\times and 6\times longer), demonstrate that our method effectively integrates with existing video diffusion models, producing coherent, high-fidelity long videos superior to previous approaches.
Abstract（参考訳）: 高忠実でコヒーレントなロングビデオを作ることは、夢中になる。最近のビデオ拡散モデルは有望な可能性を示しているが、時空間的不整合と高い計算資源要求に悩まされている。本稿では,長時間ビデオ生成のためのチューニング不要なGLC-Diffusionを提案する。フレーム間の全体的なコンテント一貫性と時間的コヒーレンスを保証するため、Global-Local Collaborative Denoisingを通じてデノベーショントラジェクトリを確立することで、長いビデオデノナイジングプロセスをモデル化する。さらに、局所的なノイズシャッフルと周波数融合を組み合わせることで、グローバルなコンテンツ一貫性と視覚的多様性を向上させるノイズ再初期化戦略を導入する。さらに,視覚的一貫性と時間的滑らかさを高めるために,画素単位と周波数単位の損失の勾配を計算するビデオモーション・コンシスタンス・リファインメント(VMCR)モジュールを提案する。様々な長さの動画(3\times,6\times,3\times,6\times)の定量的・定性的な評価を含む広範囲な実験により,本手法が既存のビデオ拡散モデルと効果的に統合され,従来手法より優れたコヒーレントで高忠実な長ビデオが生成されることを示した。

関連論文リスト

ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos [32.14142910911528]
ビデオ拡散モデル(VDM)は高品質のビデオの生成を容易にする。近年,映像の質を高める「金音」の存在が報告されている。本研究では,拡散サンプリングプロセスにおける黄金の初期雑音を識別する,プラグアンドプレイの推論時間探索手法であるScalingNoiseを提案する。
論文参考訳（メタデータ） (2025-03-20T17:54:37Z)
Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling [81.37449968164692]
ビデオ全体にわたってデノイングパスを同期する新しい推論フレームワークであるシンクロナイズド結合サンプリング(SynCoS)を提案する。提案手法は, シームレスな局所遷移を保証し, グローバルコヒーレンスを強制する2つの相補的なサンプリング戦略を組み合わせる。大規模な実験により、SynCoSは、よりスムーズな遷移とより優れた長距離コヒーレンスを実現し、マルチイベント長ビデオ生成を大幅に改善することが示された。
論文参考訳（メタデータ） (2025-03-11T16:43:45Z)
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion [116.40704026922671]
事前訓練されたテキスト・ツー・ビデオモデルに基づいて構築されたファースト・イン・ファースト・アウト(FIFO)ビデオ拡散は,近年,チューニング不要な長ビデオ生成に有効なアプローチとして浮上している。 We propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structure and content (ject) consistency。
論文参考訳（メタデータ） (2025-01-15T18:59:15Z)
Enhancing Multi-Text Long Video Generation Consistency without Tuning: Time-Frequency Analysis, Prompt Alignment, and Theory [92.1714656167712]
本稿では,単一または複数プロンプトで生成されたビデオの一貫性とコヒーレンスを高めるため,時間的注意強調アルゴリズム(TiARA)を提案する。本手法は拡散モデルにおける周波数に基づく手法の第一種である理論的保証によって支持される。複数のプロンプトが生成するビデオについては、プロンプト品質に影響を及ぼす重要な要因をさらに調査し、プロンプトブレンド(PromptBlend)という高度なビデオプロンプトパイプラインを提案する。
論文参考訳（メタデータ） (2024-12-23T03:56:27Z)
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-29T11:52:07Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文参考訳（メタデータ） (2023-03-15T02:16:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。