論文の概要: FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching
- arxiv url: http://arxiv.org/abs/2605.20910v1
- Date: Wed, 20 May 2026 08:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.580479
- Title: FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching
- Title(参考訳): FlowLong:manifold-constrained Tweedie Matchingによる推論時間長ビデオ生成
- Authors: Jangho Park, Geon Yeong Park, Gihyun Kwon, Jong Chul Ye,
- Abstract要約: 本稿では,アーキテクチャに依存しない,追加のトレーニングを必要としない長大なビデオ生成のための,斬新でシンプルな推論時間アプローチを提案する。
提案手法では,隣接するウィンドウからのクリーンサンプルをemphTweedieマッチングでブレンドし,テキストbfmanifoldの制約と重複領域間の時間的一貫性を強制する。
本手法は, 時間的一貫性と視覚的品質において, トレーニング不要, 自己回帰ベースラインを両立させながら, ネイティブウィンドウ長よりも数倍長大のビデオを生成する。
- 参考スコア(独自算出の注目度): 68.01498128172214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extending the generation horizon of video diffusion models to long sequences remains a long-standing and important challenge. Existing training-free approaches fall into two categories: extensions of bidirectional models, which are tightly coupled to specific architectures and suffer from quality degradation over long horizons, and autoregressive models, which accumulate drift errors due to exposure bias and tend to produce repetitive motion patterns. To address these issues, we propose a novel but simple inference-time approach for long video generation that is architecture-agnostic and requires no additional training. Our method generates long videos via overlapping sliding windows, where predicted clean samples from adjacent windows are blended via \emph{Tweedie matching} to enforce both \textbf{manifold constraint and temporal consistency} across overlap regions. \emph{Stochastic early-phase sampling} then synchronizes per-window trajectories by injecting fresh noise after each Tweedie matching correction in the high-noise phase, before transitioning to deterministic ODE sampling to preserve fine-grained visual fidelity. Applied to various video generation models, our method generates videos several times longer than the native window length while outperforming both training-free and autoregressive baselines in temporal consistency and visual quality, and further extends to audio-video joint generation and text-to-3DGS without any fine-tuning.
- Abstract(参考訳): ビデオ拡散モデルの生成地平線を長いシーケンスに拡張することは、長く重要な課題である。
既存のトレーニングフリーアプローチは、特定のアーキテクチャと密結合し、長い水平線上で品質劣化に悩まされる双方向モデルの拡張と、露出バイアスによるドリフトエラーを蓄積し、反復的な動きパターンを生み出す傾向のある自己回帰モデルという2つのカテゴリに分類される。
これらの問題に対処するために,アーキテクチャに依存しない,追加のトレーニングを必要としない,新しい,かつ単純な推論時間による長ビデオ生成手法を提案する。
提案手法では, 隣接するウィンドウからの予測クリーンなサンプルを<emph{Tweedie matching} でブレンドし, 重なり合う領域間でのtextbf{manifold constraintst と temporal consistency} の両方を強制する。
次に,各ツイーディ整合補正を高雑音相に注入し,その後決定論的ODEサンプリングに遷移し,微粒な視覚的忠実さを保ちながら,ウィンドウごとの軌道を同期させる。
様々なビデオ生成モデルに適用し、トレーニング不要と自己回帰ベースラインの両方を時間的整合性と視覚的品質で上回りながら、ネイティブウィンドウ長よりも数倍長大のビデオを生成する。
関連論文リスト
- Streaming Autoregressive Video Generation via Diagonal Distillation [50.13573884115673]
自己回帰モデルは、シーケンシャルフレーム合成のための自然なフレームワークを提供するが、高い忠実性を達成するためには重い計算を必要とする。
ビデオチャンクとデノイングステップの時間的情報を活用するために,ダイアゴナル蒸留を提案する。
本手法は,2.61秒(最大31FPS)で5秒ビデオを生成し,未蒸留モデル上で277.3倍のスピードアップを実現する。
論文 参考訳(メタデータ) (2026-03-10T10:45:24Z) - Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-09-29T17:57:14Z) - FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion [24.48220892418698]
FreeLongは、Denoisingプロセス中の長いビデオ機能の頻度分布のバランスをとるために設計された、トレーニング不要のフレームワークである。
FreeLongは、全ビデオの全体的意味をキャプチャするグローバルな低周波特徴と、短い時間窓から抽出された局所的な高周波特徴をブレンドすることで、これを実現している。
FreeLong++はFreeLongを複数の注意枝を持つマルチブランチアーキテクチャに拡張し、それぞれが異なる時間スケールで動作する。
論文 参考訳(メタデータ) (2025-06-30T18:11:21Z) - STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation [42.73124501421074]
STAGEは、階層的な特徴調整と、持続可能なビデオ合成のためのマルチフェーズ最適化の先駆けとなる自動回帰フレームワークである。
HTFTはビデオ生成プロセスを通してビデオフレーム間の時間的一貫性を高める。
我々はNuscenesデータセット上で600フレームの高品質なドライビングビデオを生成しました。
論文 参考訳(メタデータ) (2025-06-16T06:53:05Z) - Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling [81.37449968164692]
ビデオ全体にわたってデノイングパスを同期する新しい推論フレームワークであるシンクロナイズド結合サンプリング(SynCoS)を提案する。
提案手法は, シームレスな局所遷移を保証し, グローバルコヒーレンスを強制する2つの相補的なサンプリング戦略を組み合わせる。
大規模な実験により、SynCoSは、よりスムーズな遷移とより優れた長距離コヒーレンスを実現し、マルチイベント長ビデオ生成を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-03-11T16:43:45Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。