Fugu-MT 論文翻訳(概要): FreeSpec: Training-Free Long Video Generation via Singular-Spectrum Reconstruction

論文の概要: FreeSpec: Training-Free Long Video Generation via Singular-Spectrum Reconstruction

arxiv url: http://arxiv.org/abs/2605.06509v1
Date: Thu, 07 May 2026 16:21:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.990415
Title: FreeSpec: Training-Free Long Video Generation via Singular-Spectrum Reconstruction
Title（参考訳）: FreeSpec: Singular-Spectrumリコンストラクションによるトレーニング不要長ビデオ生成
Authors: Fangda Chen, Shanshan Zhao, Longrong Yang, Chuanfu Xu, Zhigang Luo, Long Lan,
Abstract要約: ビデオ拡散モデルは、短いビデオ合成においてよく機能するが、コンテンツドリフト、時間的不整合、過度に平滑なダイナミクスに悩まされる。長ビデオ生成のためのトレーニング不要なスペクトル再構成フレームワークであるFreeSpecを提案する。 Wan2.1 と LTX-Video の実験では、FreeSpec は特に時間的ダイナミクスのために長ビデオ生成を改善することが示されている。
参考スコア（独自算出の注目度）: 28.81130393371554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video diffusion models perform well in short-video synthesis, but their training-free extension to long videos often suffers from content drift, temporal inconsistency, and over-smoothed dynamics. Existing methods improve temporal consistency by combining a global branch with a local branch, but they often further decompose appearance consistency and temporal dynamics within each branch using predefined criteria. This assignment is unreliable when appearance and action progression are tightly coupled, such as in camera motion and sequential motion. We analyze the video temporal extension issue from a singular-spectrum perspective and show that enlarged self-attention windows induce spectral concentration: spectral energy becomes dominated by a few low-rank singular directions, preserving coarse structure but suppressing high-rank spatial details and motion-rich temporal variations. To mitigate this problem, we propose FreeSpec, a training-free spectral reconstruction framework for long-video generation. FreeSpec decomposes global and local features with singular value decomposition, and uses the global branch as low-rank spectral guidance and the local branch as a high-rank reconstruction basis. This spectrum-level fusion avoids the rigid feature partitioning of previous decomposition rules, preserving long-range consistency while better retaining spatial details and temporal dynamics. Experiments on Wan2.1 and LTX-Video demonstrate that FreeSpec improves long-video generation, especially for temporal dynamics, while maintaining strong visual quality and temporal consistency. Project demo: https://fdchen24.github.io/FreeSpec-Website/.
Abstract（参考訳）: ビデオ拡散モデルは、短いビデオ合成においてよく機能するが、長いビデオへのトレーニングなし拡張は、しばしばコンテンツドリフト、時間的不整合、過度に滑らかなダイナミクスに悩まされる。既存の方法は、グローバルブランチとローカルブランチを組み合わせることで時間的一貫性を改善するが、事前に定義された基準を用いて、各ブランチ内の外観一貫性と時間的ダイナミクスをさらに分解する。この割り当ては、カメラの動きやシーケンシャルな動きなど、外観と動作の進行が密結合されたときに信頼性が低い。スペクトルエネルギーは少数の低ランクの特異な方向で支配され、粗い構造を保ちながら、高階の空間的詳細や動きに富んだ時間変動を抑える。この問題を軽減するために,長時間ビデオ生成のためのトレーニング不要なスペクトル再構成フレームワークであるFreeSpecを提案する。 FreeSpecはグローバルな特徴とローカルな特徴を特異な値分解で分解し、グローバルブランチを低ランクのスペクトルガイダンスとして、ローカルブランチを高ランクの再構成ベースとして使用する。このスペクトルレベルの融合は、従来の分解規則の厳密な特徴分割を回避し、空間的詳細と時間的ダイナミクスをより良く保ちながら、長距離の一貫性を保つ。 Wan2.1 と LTX-Video の実験では、FreeSpec は、特に時間力学において、強い視覚的品質と時間的一貫性を維持しながら、長時間のビデオ生成を改善することが示されている。プロジェクトデモ:https://fdchen24.github.io/FreeSpec-Website/.com

関連論文リスト

LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文参考訳（メタデータ） (2026-01-23T17:21:35Z)
Delving into Latent Spectral Biasing of Video VAEs for Superior Diffusability [21.927814986478356]
本稿では,ビデオVAEラテント空間の統計的解析を行い,拡散訓練に不可欠な2つの特性を同定する。局所相関正則化と潜在仮面再構成の2つの軽量なバックボーン非依存正規化器を提案する。実験によると、我々のSpectral-Structured VAEは、テキストとビデオの収束の3倍のスピードアップ、ビデオ報酬の10%アップを実現し、強力なオープンソースVAEを上回っている。
論文参考訳（メタデータ） (2025-12-05T03:20:02Z)
HieraMamba: Video Temporal Grounding via Hierarchical Anchor-Mamba Pooling [52.10845971383909]
HieraMambaは階層的なアーキテクチャで、時間的構造と規模にわたって意味的な豊かさを保ちます。 Ego4D-NLQ、MAD、TACoSに新たな最先端技術を導入し、長い、トリミングされていないビデオの正確な時間的忠実なローカライゼーションを実証した。
論文参考訳（メタデータ） (2025-10-27T06:13:07Z)
LongScape: Advancing Long-Horizon Embodied World Models with Context-Aware MoE [16.561410415129778]
LongScapeは、チャンク内拡散とチャンク間自己回帰因果生成を組み合わせたハイブリッドフレームワークである。私たちの中心となるイノベーションは、ロボットアクションのセマンティックコンテキストに基づいてビデオを分割するアクションガイド付き可変長チャンキングメカニズムです。
論文参考訳（メタデータ） (2025-09-26T02:47:05Z)
FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion [24.48220892418698]
FreeLongは、Denoisingプロセス中の長いビデオ機能の頻度分布のバランスをとるために設計された、トレーニング不要のフレームワークである。 FreeLongは、全ビデオの全体的意味をキャプチャするグローバルな低周波特徴と、短い時間窓から抽出された局所的な高周波特徴をブレンドすることで、これを実現している。 FreeLong++はFreeLongを複数の注意枝を持つマルチブランチアーキテクチャに拡張し、それぞれが異なる時間スケールで動作する。
論文参考訳（メタデータ） (2025-06-30T18:11:21Z)
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion [116.40704026922671]
事前訓練されたテキスト・ツー・ビデオモデルに基づいて構築されたファースト・イン・ファースト・アウト(FIFO)ビデオ拡散は,近年,チューニング不要な長ビデオ生成に有効なアプローチとして浮上している。 We propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structure and content (ject) consistency。
論文参考訳（メタデータ） (2025-01-15T18:59:15Z)
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-29T11:52:07Z)
Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文参考訳（メタデータ） (2022-06-07T16:29:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。