論文の概要: Stable Video Infinity: Infinite-Length Video Generation with Error Recycling
- arxiv url: http://arxiv.org/abs/2510.09212v1
- Date: Fri, 10 Oct 2025 09:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.614283
- Title: Stable Video Infinity: Infinite-Length Video Generation with Error Recycling
- Title(参考訳): 安定したビデオインフィニティ:エラーリサイクリングによる無限長ビデオ生成
- Authors: Wuyang Li, Wentao Pan, Po-Chien Luan, Yang Gao, Alexandre Alahi,
- Abstract要約: 本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
- 参考スコア(独自算出の注目度): 76.91310169118408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Stable Video Infinity (SVI) that is able to generate infinite-length videos with high temporal consistency, plausible scene transitions, and controllable streaming storylines. While existing long-video methods attempt to mitigate accumulated errors via handcrafted anti-drifting (e.g., modified noise scheduler, frame anchoring), they remain limited to single-prompt extrapolation, producing homogeneous scenes with repetitive motions. We identify that the fundamental challenge extends beyond error accumulation to a critical discrepancy between the training assumption (seeing clean data) and the test-time autoregressive reality (conditioning on self-generated, error-prone outputs). To bridge this hypothesis gap, SVI incorporates Error-Recycling Fine-Tuning, a new type of efficient training that recycles the Diffusion Transformer (DiT)'s self-generated errors into supervisory prompts, thereby encouraging DiT to actively identify and correct its own errors. This is achieved by injecting, collecting, and banking errors through closed-loop recycling, autoregressively learning from error-injected feedback. Specifically, we (i) inject historical errors made by DiT to intervene on clean inputs, simulating error-accumulated trajectories in flow matching; (ii) efficiently approximate predictions with one-step bidirectional integration and calculate errors with residuals; (iii) dynamically bank errors into replay memory across discretized timesteps, which are resampled for new input. SVI is able to scale videos from seconds to infinite durations with no additional inference cost, while remaining compatible with diverse conditions (e.g., audio, skeleton, and text streams). We evaluate SVI on three benchmarks, including consistent, creative, and conditional settings, thoroughly verifying its versatility and state-of-the-art role.
- Abstract(参考訳): 本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
既存の長ビデオ法は、手作りのアンチドリフト(例えば、修正されたノイズスケジューラ、フレームアンカー)によって蓄積したエラーを軽減しようとするが、それらは単発外挿に限られ、繰り返し動きを伴う均質なシーンを生成する。
基本的な課題は、エラーの蓄積を超えて、トレーニングの前提(クリーンデータを参照)とテスト時の自己回帰現実(自己生成的、エラーを起こしやすいアウトプットの条件)の重大な相違にまで及ぶ。
この仮説ギャップを埋めるため、SVIは、Diffusion Transformer(DiT)の自己生成エラーを監督プロンプトにリサイクルする、新しいタイプの効率的なトレーニングであるError-Recycling Fine-Tuningを取り入れている。
これは、クローズドループリサイクルを通じてエラーを注入、収集、およびバンキングすることで達成され、エラー注入されたフィードバックから自己回帰的に学習される。
具体的には
一 フローマッチングにおける誤差蓄積軌跡を模擬して、DiTがクリーン入力に干渉するためにした履歴誤差を注入すること。
(二)一段階の双方向統合による予測を効率よく近似し、残差による誤差を計算すること。
3) エラーを動的に記録し、新しい入力に再サンプリングした離散化されたタイムステップ間でメモリを再生する。
SVIは、様々な条件(例えば、オーディオ、スケルトン、テキストストリーム)と互換性を持ちながら、追加の推論コストなしで、数秒から無限の期間にビデオをスケールすることができる。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
関連論文リスト
- DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Generative Regression Based Watch Time Prediction for Short-Video Recommendation [36.95095097454143]
短いビデオレコメンデーションシステムでは、時計の時間予測が重要なタスクとして現れている。
最近の研究は、連続時計時間推定を正規回帰タスクに変換することによって、これらの問題に対処しようとしている。
本稿では,WTPをシーケンス生成タスクとして再構成する新しい生成回帰(GR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T16:48:55Z) - Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild [30.99346916414286]
本稿では,アノテーションのコスト削減のための新しいパラダイムを提案する。
不完全な疑似アノテーションの直接事前学習は、不一致の文-ビデオペアや不正確な時間境界など、重大な課題を呈する。
本稿では,セマンティックス誘導の洗練とメモリ・コンセンサス補正の2つの相からなるReCorrectアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-01T13:49:21Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。