論文の概要: Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion
- arxiv url: http://arxiv.org/abs/2602.07775v1
- Date: Sun, 08 Feb 2026 02:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.795885
- Title: Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion
- Title(参考訳): ローリングシンク: 自動回帰ビデオ拡散における限定水平トレーニングとオープンエンデッドテスト
- Authors: Haodong Li, Shaoteng Liu, Zhe Lin, Manmohan Chandraker,
- Abstract要約: 自己回帰(AR)ビデオ拡散モデルは優れた性能を達成した。
訓練期間が限られているため、長い地平線でのテスト中に列車とテストの間のギャップが出現し、視覚的劣化が急速に進行する。
ローリングシンク(Rolling Sink)は、ARビデオ合成を、一貫した被写体、安定した色、コヒーレントな構造、滑らかな動きで、テスト時に超長い持続時間にスケールする。
- 参考スコア(独自算出の注目度): 62.3543999991324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, autoregressive (AR) video diffusion models has achieved remarkable performance. However, due to their limited training durations, a train-test gap emerges when testing at longer horizons, leading to rapid visual degradations. Following Self Forcing, which studies the train-test gap within the training duration, this work studies the train-test gap beyond the training duration, i.e., the gap between the limited horizons during training and open-ended horizons during testing. Since open-ended testing can extend beyond any finite training window, and long-video training is computationally expensive, we pursue a training-free solution to bridge this gap. To explore a training-free solution, we conduct a systematic analysis of AR cache maintenance. These insights lead to Rolling Sink. Built on Self Forcing (trained on only 5s clips), Rolling Sink effectively scales the AR video synthesis to ultra-long durations (e.g., 5-30 minutes at 16 FPS) at test time, with consistent subjects, stable colors, coherent structures, and smooth motions. As demonstrated by extensive experiments, Rolling Sink achieves superior long-horizon visual fidelity and temporal consistency compared to SOTA baselines. Project page: https://rolling-sink.github.io/
- Abstract(参考訳): 近年,自己回帰(AR)ビデオ拡散モデルの性能向上が目覚ましい。
しかし、訓練期間が限られているため、より長い地平線でテストする場合に列車とテストのギャップが出現し、視覚的に急速に劣化する。
本研究は,訓練期間内の列車-テスト間隙,すなわち訓練期間中の限られた地平線と試験期間中の開放的な地平線との間の隙間について,訓練期間内における列車-テスト間隙を研究する。
オープンエンドテストは、任意のトレーニングウィンドウを超えて拡張可能であり、長時間ビデオトレーニングは計算コストがかかるため、このギャップを埋めるためのトレーニングフリーなソリューションを追求する。
トレーニング不要のソリューションを探索するため、ARキャッシュの保守を体系的に分析する。
これらの洞察はローリングシンクにつながります。
ローリング・シンク(Rolling Sink)は、Self Forcing(わずか5秒のクリップでトレーニングされている)に基づいて、ARビデオ合成をテスト時間(例えば16 FPSで5~30分)に効果的にスケールし、一貫した被写体、安定した色、コヒーレントな構造、滑らかな動きを持つ。
広範な実験によって示されるように、ローリングシンクはSOTAベースラインよりも長い水平視力と時間的一貫性が優れている。
プロジェクトページ: https://rolling-sink.github.io/
関連論文リスト
- End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [63.84672807009907]
自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:53:29Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Refining Pre-Trained Motion Models [56.18044168821188]
我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオから「クリーン」な訓練信号を得ることに重点を置いている。
本研究では,本手法が実動画における完全教師付き手法よりも信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-01T18:59:33Z) - Accelerating the Training of Video Super-Resolution [26.449738545078986]
そこで本研究では,ビデオモデルを小型から大型の空間的・時間的サイズに段階的に訓練することが可能であることを示す。
本手法は, 各種VSRモデルの性能低下を伴わずに, トレーニングの大幅な高速化(ウォールクロックトレーニング時間で最大6.2倍のスピードアップ)が可能となる。
論文 参考訳(メタデータ) (2022-05-10T17:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。