論文の概要: Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling
- arxiv url: http://arxiv.org/abs/2503.08605v1
- Date: Tue, 11 Mar 2025 16:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:15.609692
- Title: Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling
- Title(参考訳): 同期結合サンプリングによるチューニング不要マルチイベントロングビデオ生成
- Authors: Subin Kim, Seoung Wug Oh, Jui-Hsien Wang, Joon-Young Lee, Jinwoo Shin,
- Abstract要約: ビデオ全体にわたってデノイングパスを同期する新しい推論フレームワークであるシンクロナイズド結合サンプリング(SynCoS)を提案する。
提案手法は, シームレスな局所遷移を保証し, グローバルコヒーレンスを強制する2つの相補的なサンプリング戦略を組み合わせる。
大規模な実験により、SynCoSは、よりスムーズな遷移とより優れた長距離コヒーレンスを実現し、マルチイベント長ビデオ生成を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 81.37449968164692
- License:
- Abstract: While recent advancements in text-to-video diffusion models enable high-quality short video generation from a single prompt, generating real-world long videos in a single pass remains challenging due to limited data and high computational costs. To address this, several works propose tuning-free approaches, i.e., extending existing models for long video generation, specifically using multiple prompts to allow for dynamic and controlled content changes. However, these methods primarily focus on ensuring smooth transitions between adjacent frames, often leading to content drift and a gradual loss of semantic coherence over longer sequences. To tackle such an issue, we propose Synchronized Coupled Sampling (SynCoS), a novel inference framework that synchronizes denoising paths across the entire video, ensuring long-range consistency across both adjacent and distant frames. Our approach combines two complementary sampling strategies: reverse and optimization-based sampling, which ensure seamless local transitions and enforce global coherence, respectively. However, directly alternating between these samplings misaligns denoising trajectories, disrupting prompt guidance and introducing unintended content changes as they operate independently. To resolve this, SynCoS synchronizes them through a grounded timestep and a fixed baseline noise, ensuring fully coupled sampling with aligned denoising paths. Extensive experiments show that SynCoS significantly improves multi-event long video generation, achieving smoother transitions and superior long-range coherence, outperforming previous approaches both quantitatively and qualitatively.
- Abstract(参考訳): 近年のテキスト・ビデオ拡散モデルの進歩により、1つのプロンプトから高品質なショートビデオ生成が可能になったが、データ不足と計算コストの高さにより、1回のパスで現実世界の長いビデオを生成することは困難なままである。
これに対処するため、いくつかの研究がチューニング不要なアプローチを提案しており、すなわち、既存のモデルを長いビデオ生成のために拡張し、特に動的かつ制御されたコンテンツの変更を可能にするために複数のプロンプトを使用する。
しかし、これらの手法は主に隣接するフレーム間のスムーズな遷移を保証することに重点を置いており、しばしば内容のドリフトや、長いシーケンスよりも徐々に意味的コヒーレンスを失う。
このような問題に対処するために、ビデオ全体にわたってデノイングパスを同期させ、隣接フレームと遠フレームの長距離一貫性を確保する新しい推論フレームワークであるシンクロナイズド結合サンプリング(SynCoS)を提案する。
提案手法は2つの相補的なサンプリング戦略,すなわち逆と最適化に基づくサンプリングを組み合わせることで,シームレスな局所遷移を保証し,大域的コヒーレンスを強制する。
しかし、これらのサンプリング間の直接的な交互化は、軌跡を悪用し、迅速な指導を妨害し、独立して動作する際に意図しない内容の変更を導入する。
これを解決するため、SynCoSは、接地時間ステップと固定ベースラインノイズを通してそれらを同期させ、整列されたデノナイジングパスと完全に結合したサンプリングを保証する。
広汎な実験により、SynCoSは、よりスムーズなトランジションと優れた長距離コヒーレンスを実現し、従来手法よりも定量的かつ定性的に優れていることが示されている。
関連論文リスト
- Latent Swap Joint Diffusion for Long-Form Audio Generation [38.434225760834146]
Swap Forwardは、フレームレベルの遅延スワップフレームワークで、フォワードのみの方法で、よりスペクトルの詳細なグローバルコヒーレントなロングオーディオを生成する。
実験により、SaFaは既存のジョイント拡散法やトレーニングベースのロングオーディオ生成モデルよりも大幅に優れていることが示された。
またパノラマ生成にも適しており、高い効率とモデル一般化性で同等の最先端性能を達成できる。
論文 参考訳(メタデータ) (2025-02-07T18:02:47Z) - Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion [116.40704026922671]
事前訓練されたテキスト・ツー・ビデオモデルに基づいて構築されたファースト・イン・ファースト・アウト(FIFO)ビデオ拡散は,近年,チューニング不要な長ビデオ生成に有効なアプローチとして浮上している。
We propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structure and content (ject) consistency。
論文 参考訳(メタデータ) (2025-01-15T18:59:15Z) - Tuning-Free Long Video Generation via Global-Local Collaborative Diffusion [22.988212617368095]
本稿では,長時間ビデオ生成のためのチューニング不要なGLC-Diffusionを提案する。
Global-Local Collaborative Denoisingを確立することで、長いビデオDenoisingプロセスをモデル化する。
また,ビデオモーション・コンシスタンス・リファインメント(VMCR)モジュールを提案する。
論文 参考訳(メタデータ) (2025-01-08T05:49:39Z) - Enhancing Multi-Text Long Video Generation Consistency without Tuning: Time-Frequency Analysis, Prompt Alignment, and Theory [92.1714656167712]
本稿では,単一または複数プロンプトで生成されたビデオの一貫性とコヒーレンスを高めるため,時間的注意強調アルゴリズム(TiARA)を提案する。
本手法は拡散モデルにおける周波数に基づく手法の第一種である理論的保証によって支持される。
複数のプロンプトが生成するビデオについては、プロンプト品質に影響を及ぼす重要な要因をさらに調査し、プロンプトブレンド(PromptBlend)という高度なビデオプロンプトパイプラインを提案する。
論文 参考訳(メタデータ) (2024-12-23T03:56:27Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling [19.004339956475498]
MAVINは、2つの動画をシームレスに接続し、結合的な統合シーケンスを形成するトランジションビデオを生成するように設計されている。
従来の品質基準を補完し,時間的コヒーレンスと滑らかさを評価するための新しい指標CLIP-RS(CLIP Relative Smoothness)を導入する。
馬とトラのシナリオに関する実験結果は、滑らかでコヒーレントなビデオ遷移を生成するMAVINの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-28T09:46:09Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Continuous Space-Time Video Super-Resolution Utilizing Long-Range
Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。
本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-02-26T08:02:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。