論文の概要: FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion
- arxiv url: http://arxiv.org/abs/2507.00162v1
- Date: Mon, 30 Jun 2025 18:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.543081
- Title: FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion
- Title(参考訳): FreeLong++:マルチバンドスペクトラルフュージョンによるトレーニング不要長ビデオ生成
- Authors: Yu Lu, Yi Yang,
- Abstract要約: FreeLongは、Denoisingプロセス中の長いビデオ機能の頻度分布のバランスをとるために設計された、トレーニング不要のフレームワークである。
FreeLongは、全ビデオの全体的意味をキャプチャするグローバルな低周波特徴と、短い時間窓から抽出された局所的な高周波特徴をブレンドすることで、これを実現している。
FreeLong++はFreeLongを複数の注意枝を持つマルチブランチアーキテクチャに拡張し、それぞれが異なる時間スケールで動作する。
- 参考スコア(独自算出の注目度): 24.48220892418698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video generation models have enabled high-quality short video generation from text prompts. However, extending these models to longer videos remains a significant challenge, primarily due to degraded temporal consistency and visual fidelity. Our preliminary observations show that naively applying short-video generation models to longer sequences leads to noticeable quality degradation. Further analysis identifies a systematic trend where high-frequency components become increasingly distorted as video length grows, an issue we term high-frequency distortion. To address this, we propose FreeLong, a training-free framework designed to balance the frequency distribution of long video features during the denoising process. FreeLong achieves this by blending global low-frequency features, which capture holistic semantics across the full video, with local high-frequency features extracted from short temporal windows to preserve fine details. Building on this, FreeLong++ extends FreeLong dual-branch design into a multi-branch architecture with multiple attention branches, each operating at a distinct temporal scale. By arranging multiple window sizes from global to local, FreeLong++ enables multi-band frequency fusion from low to high frequencies, ensuring both semantic continuity and fine-grained motion dynamics across longer video sequences. Without any additional training, FreeLong++ can be plugged into existing video generation models (e.g. Wan2.1 and LTX-Video) to produce longer videos with substantially improved temporal consistency and visual fidelity. We demonstrate that our approach outperforms previous methods on longer video generation tasks (e.g. 4x and 8x of native length). It also supports coherent multi-prompt video generation with smooth scene transitions and enables controllable video generation using long depth or pose sequences.
- Abstract(参考訳): 近年のビデオ生成モデルの進歩により、テキストプロンプトから高品質なショートビデオ生成が可能になった。
しかし、これらのモデルを長いビデオに拡張することは、主に時間的一貫性の低下と視覚的忠実さのために重要な課題である。
予備的な観察では、短いビデオ生成モデルを長いシーケンスに適用することで、顕著な品質劣化をもたらすことが示されている。
さらに,ビデオ長の増大に伴う高周波成分の歪みが増大する系統的傾向を,我々は高周波歪みと呼ぶ。
これを解決するために,フリーラング(FreeLong)を提案する。フリーロング(FreeLong)は,デノナイジング過程において,長い映像の特徴の周波数分布のバランスをとるために設計されたトレーニングフリーフレームワークである。
FreeLongは、全ビデオの全体的意味をキャプチャするグローバルな低周波機能と、短い時間窓から抽出した局所的な高周波機能を組み合わせることで、これを実現している。
これに基づいてFreeLong++は、FreeLongのデュアルブランチ設計を、複数の注目ブランチを持つマルチブランチアーキテクチャに拡張し、それぞれが異なる時間スケールで運用する。
グローバルからローカルまでの複数のウィンドウサイズをアレンジすることで、FreeLong++は低周波数から高周波数までのマルチバンド周波数の融合を可能にし、より長いビデオシーケンスにわたるセマンティックな連続性と微粒なモーションダイナミクスの両方を保証する。
追加のトレーニングがなければ、FreeLong++は既存のビデオ生成モデル(例えば Wan2.1 や LTX-Video)にプラグインして、時間的一貫性と視覚的忠実性を大幅に改善したビデオを生成することができる。
提案手法は,より長いビデオ生成タスク(ネイティブ長の4x,8xなど)において,従来の手法よりも優れていることを示す。
また、スムーズなシーン遷移を伴うコヒーレントなマルチプロンプトビデオ生成をサポートし、長い深さやポーズシーケンスを使った制御可能なビデオ生成を可能にする。
関連論文リスト
- LongDiff: Training-Free Long Video Generation in One Go [27.38597403230757]
LongDiff は位置マッピング (PM) と Informative Frame Selection (IFS) で構成されるトレーニング不要の手法である。
提案手法は,時間的位置の曖昧さと情報の希薄化という,映像生成の短期的一般化を妨げる2つの重要な課題に対処する。
提案手法は,市販ビデオ拡散モデルの可能性を解き明かし,高品質な長編ビデオ生成を実現する。
論文 参考訳(メタデータ) (2025-03-23T17:34:57Z) - VideoMerge: Towards Training-free Long Video Generation [46.108622251662176]
長いビデオ生成は、コンピュータビジョンにおける挑戦的で魅力的なトピックであり続けている。
本稿では,短時間のビデオのマージにシームレスに適応できるトレーニングフリーのVideoMergeを提案する。
論文 参考訳(メタデータ) (2025-03-13T00:47:59Z) - Tuning-Free Long Video Generation via Global-Local Collaborative Diffusion [22.988212617368095]
本稿では,長時間ビデオ生成のためのチューニング不要なGLC-Diffusionを提案する。
Global-Local Collaborative Denoisingを確立することで、長いビデオDenoisingプロセスをモデル化する。
また,ビデオモーション・コンシスタンス・リファインメント(VMCR)モジュールを提案する。
論文 参考訳(メタデータ) (2025-01-08T05:49:39Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。