論文の概要: UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2511.20123v1
- Date: Tue, 25 Nov 2025 09:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.391178
- Title: UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers
- Title(参考訳): UltraViCo:ビデオ拡散変換器における外挿限界を破る
- Authors: Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu,
- Abstract要約: 本研究では,一定の減衰係数を介し,トレーニングウィンドウ以外のトークンの注意を抑える訓練自由プラグアンドプレイ手法を提案する。
注目すべきは、4倍の補間で前の最良の方法よりも233%、40.5%向上することである。
- 参考スコア(独自算出の注目度): 42.379492244355454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances, video diffusion transformers still struggle to generalize beyond their training length, a challenge we term video length extrapolation. We identify two failure modes: model-specific periodic content repetition and a universal quality degradation. Prior works attempt to solve repetition via positional encodings, overlooking quality degradation and achieving only limited extrapolation. In this paper, we revisit this challenge from a more fundamental view: attention maps, which directly govern how context influences outputs. We identify that both failure modes arise from a unified cause: attention dispersion, where tokens beyond the training window dilute learned attention patterns. This leads to quality degradation and repetition emerges as a special case when this dispersion becomes structured into periodic attention patterns, induced by harmonic properties of positional encodings. Building on this insight, we propose UltraViCo, a training-free, plug-and-play method that suppresses attention for tokens beyond the training window via a constant decay factor. By jointly addressing both failure modes, we outperform a broad set of baselines largely across models and extrapolation ratios, pushing the extrapolation limit from 2x to 4x. Remarkably, it improves Dynamic Degree and Imaging Quality by 233% and 40.5% over the previous best method at 4x extrapolation. Furthermore, our method generalizes seamlessly to downstream tasks such as controllable video synthesis and editing.
- Abstract(参考訳): ビデオ拡散変換器は、進歩にもかかわらず、トレーニングの長さを超える一般化に苦慮している。
モデル固有の周期的コンテンツ繰り返しと普遍的な品質劣化の2つの障害モードを同定する。
先行研究は、位置エンコーディングによる反復を解決し、品質劣化を見越し、限られた外挿しか達成しない。
本稿では,この課題を,文脈がアウトプットにどのように影響するかを直接管理するアテンションマップという,より基本的な視点から再考する。
両方の障害モードは、注意分散という、トレーニングウィンドウを越えたトークンが、注意パターンを希薄に学習する、統一された原因から生じている。
これにより、この分散が周期的な注意パターンに構造化され、位置符号化の調和性によって引き起こされる場合、品質劣化と繰り返しが発生する。
この知見に基づいて,一定の減衰係数によってトレーニングウィンドウを超えてトークンの注意を抑える,トレーニングフリーのプラグアンドプレイ方式であるUltraViCoを提案する。
両障害モードに共同で対処することにより、モデルと外挿比で幅広いベースラインを上回り、外挿限界を2倍から4倍に広げる。
注目すべきは、4倍の補間で前の最良の方法よりも233%、40.5%向上することである。
さらに、制御可能なビデオ合成や編集などの下流タスクにシームレスに一般化する。
関連論文リスト
- FICGen: Frequency-Inspired Contextual Disentanglement for Layout-driven Degraded Image Generation [16.628211648386454]
FICGenは劣化した画像の周波数知識を潜伏拡散空間に移そうとしている。
FICGenは、生成的忠実度、アライメント、下流補助訓練性の観点から、既存のL2Iメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-01T04:00:22Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [38.76559841681518]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers [29.663251658875673]
RIFLExは、最先端のビデオ拡散変換器における高品質な2x外挿を実現するフリーランチである。
画質を向上し、長いビデオなしで最小限の微調整で3倍の補間を可能にする。
論文 参考訳(メタデータ) (2025-02-21T19:28:05Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。