論文の概要: Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
- arxiv url: http://arxiv.org/abs/2510.02283v1
- Date: Thu, 02 Oct 2025 17:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.276447
- Title: Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
- Title(参考訳): Self-Forcing++: 数分単位の高画質ビデオ生成を目指す
- Authors: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh,
- Abstract要約: 拡散モデルは画像とビデオ生成に革命をもたらし、前例のない視覚的品質を達成した。
最近の研究は、主に短水平双方向教師の蒸留によって、長時間のビデオ生成のための自己回帰的定式化を探求している。
長ビデオ教師の監督や長ビデオデータセットの再訓練を必要とせずに、長ビデオ生成における品質劣化を軽減するための、単純かつ効果的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 50.945885467651216
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have revolutionized image and video generation, achieving unprecedented visual quality. However, their reliance on transformer architectures incurs prohibitively high computational costs, particularly when extending generation to long videos. Recent work has explored autoregressive formulations for long video generation, typically by distilling from short-horizon bidirectional teachers. Nevertheless, given that teacher models cannot synthesize long videos, the extrapolation of student models beyond their training horizon often leads to pronounced quality degradation, arising from the compounding of errors within the continuous latent space. In this paper, we propose a simple yet effective approach to mitigate quality degradation in long-horizon video generation without requiring supervision from long-video teachers or retraining on long video datasets. Our approach centers on exploiting the rich knowledge of teacher models to provide guidance for the student model through sampled segments drawn from self-generated long videos. Our method maintains temporal consistency while scaling video length by up to 20x beyond teacher's capability, avoiding common issues such as over-exposure and error-accumulation without recomputing overlapping frames like previous methods. When scaling up the computation, our method shows the capability of generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the maximum span supported by our base model's position embedding and more than 50x longer than that of our baseline model. Experiments on standard benchmarks and our proposed improved benchmark demonstrate that our approach substantially outperforms baseline methods in both fidelity and consistency. Our long-horizon videos demo can be found at https://self-forcing-plus-plus.github.io/
- Abstract(参考訳): 拡散モデルは画像とビデオ生成に革命をもたらし、前例のない視覚的品質を達成した。
しかし、トランスフォーマーアーキテクチャへの依存は、特に世代を長いビデオに拡張する場合、計算コストを著しく高めている。
最近の研究は、主に短水平双方向教師の蒸留によって、長時間のビデオ生成のための自己回帰的定式化を探求している。
それにもかかわらず、教師モデルが長い動画を合成できないことを考えると、学生モデルの訓練地平線を越えた外挿は、連続的な潜伏空間内のエラーの混在から生じる品質劣化を顕著にすることが多い。
本稿では,長ビデオ教師の監督や長ビデオデータセットの再学習を必要とせずに,長時間ビデオ生成における品質劣化を軽減するための,シンプルかつ効果的なアプローチを提案する。
提案手法は,教師モデルの豊富な知識を活用して,自己生成長ビデオから抽出したサンプルセグメントを通して生徒モデルの指導を行う。
提案手法は,教師の能力を超えるビデオ長を最大20倍まで拡張しながら,時間的一貫性を維持し,オーバーラップフレームを再計算することなく,過剰露光やエラー蓄積などの一般的な問題を回避している。
計算のスケールアップにおいて,本手法は,ベースモデルの位置埋め込みがサポートする最大スパンの99.9%に相当する最大4分15秒の動画を生成する能力を示し,ベースモデルよりも50倍以上長くなることを示す。
標準ベンチマークと改良ベンチマークの実験により,本手法は忠実度と整合性の両方において,ベースライン法を大幅に上回っていることが示された。
私たちの長年にわたるビデオデモはhttps://self-forcing-plus.github.io/で見ることができる。
関連論文リスト
- LongDWM: Cross-Granularity Distillation for Building a Long-Term Driving World Model [22.92353994818742]
ドライビングワールドモデルは、現在の状態と行動の状態に基づいて、ビデオ生成によって未来をシミュレートするために使用される。
最近の研究は、ディフュージョントランスフォーマー(DiT)を駆動世界モデルのバックボーンとして利用し、学習の柔軟性を向上させる。
我々は、シンプルで効果的な長期運転世界モデルを構築するためのソリューションをいくつか提案する。
論文 参考訳(メタデータ) (2025-06-02T11:19:23Z) - VideoMerge: Towards Training-free Long Video Generation [46.108622251662176]
長いビデオ生成は、コンピュータビジョンにおける挑戦的で魅力的なトピックであり続けている。
本稿では,短時間のビデオのマージにシームレスに適応できるトレーニングフリーのVideoMergeを提案する。
論文 参考訳(メタデータ) (2025-03-13T00:47:59Z) - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。