論文の概要: DySink: Dynamic Frame Sinks for Autoregressive Long Video Generation
- arxiv url: http://arxiv.org/abs/2605.21028v1
- Date: Wed, 20 May 2026 11:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.634888
- Title: DySink: Dynamic Frame Sinks for Autoregressive Long Video Generation
- Title(参考訳): DySink: 自動回帰ビデオ生成のための動的フレームシンク
- Authors: Bo Ye, Xinyu Cui, Jian Zhao, Tong Wei, Min-Ling Zhang,
- Abstract要約: 我々は,コンパクトなメモリバンクを保守し,動的フレームシンクとして視覚的に関連する歴史的フレームを選択する検索ベースのフレームワークであるDySinkを提案する。
分長ビデオの実験では、DySinkは強いベースラインよりもダイナミックな度合いを一貫して改善し、同時に時間的品質も向上している。
- 参考スコア(独自算出の注目度): 51.58559206569209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive long video generation often adopts bounded-memory streaming for efficiency, typically combining local windows for short-term continuity with static early-frame sinks as long-range anchors. However, this fixed allocation keeps early frames cached even when the current visual state has substantially diverged from them, while discarding potentially more relevant intermediate history. As a result, the retained long-range context may become less adaptive and bias generation toward outdated cues; in severe cases, RoPE-induced phase re-alignment can homogenize inter-head attention and cause sink collapse, where content regresses toward sink frames. We propose DySink, a retrieval-based framework that maintains a compact memory bank and selects visually relevant historical frames as dynamic frame sinks. DySink couples adaptive retrieval with a sink anomaly gate, which detects excessive inter-head consensus over retrieved context and suppresses collapse-prone context. Experiments on minute-long videos show that DySink consistently improves dynamic degree over strong baselines while also achieving higher temporal quality. The code and model weights will be released at https://github.com/yebo0216best/DySink.
- Abstract(参考訳): オートレグレッシブなロングビデオ生成は、バウンダリメモリのストリーミングを効率よく採用することが多く、ローカルウィンドウを短期連続性のために組み合わせて、静的アーリーフレームシンクを長距離アンカーとして使用するのが一般的である。
しかし、この固定されたアロケーションは、現在の視覚状態がかなり分散した場合でも初期フレームをキャッシュし、より関連性の高い中間履歴を破棄する。
その結果、持続した長距離コンテキストは時代遅れのキューに対して適応性が低下しバイアスが発生する可能性があり、重篤なケースでは、RoPE誘起相再配向は頭間注意を均質化し、シンクフレームに向かってコンテンツが後退するシンク崩壊を引き起こす。
我々は,コンパクトなメモリバンクを保守し,動的フレームシンクとして視覚的に関連する歴史的フレームを選択する検索ベースのフレームワークであるDySinkを提案する。
DySinkは、適応的な検索とシンク異常ゲートを結合し、検索されたコンテキストに対する過度な頭間コンセンサスを検出し、崩壊を起こしやすいコンテキストを抑制する。
分長ビデオの実験では、DySinkは強いベースラインよりもダイナミックな度合いを一貫して改善し、同時に時間的品質も向上している。
コードとモデルの重み付けはhttps://github.com/yebo0216best/DySink.comで公開される。
関連論文リスト
- Attend Locally, Remember Linearly: Linear Attention as Cross-Frame Memory for Autoregressive Video Diffusion [61.57938553036056]
ARL2は、二次的なクロスフレームアテンションを固定サイズのリカレント状態に置き換えるハイブリッドアテンションモジュールである。
本研究では,フレーム内ソフトマックスブランチとフレーム間リカレント線形ブランチの2つに分割し,ストリームコンテキストの固定サイズ状態を維持する。
75%の層がハイブリッドリニアアテンションに置き換えられ、最大2.26ウォールクロックのスピードアップと54%のメモリ削減を実現した。
論文 参考訳(メタデータ) (2026-05-15T19:33:45Z) - Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation [48.476317015122625]
Echo-Forcingは、インタラクティブなロングビデオ生成のためのトレーニング不要のシーンメモリフレームワークである。
キャッシュのバウンダリでスムーズなトランジション、ハードカット、長距離シーンリコールをサポートする。
論文 参考訳(メタデータ) (2026-05-15T14:33:09Z) - SWIFT: Prompt-Adaptive Memory for Efficient Interactive Long Video Generation [31.105007908298003]
ストリーミング長ビデオ生成は、連続的なセマンティックスイッチングにおいて中心的な課題に直面している。
現在のアプローチは、プロンプトバウンダリや固定メモリ予算でのキャッシュ再構築に依存している。
マルチプロンプト長ビデオ生成のためのトレーニングフリーフレームワークであるSWIFTを提案する。
論文 参考訳(メタデータ) (2026-05-10T09:37:56Z) - Relax Forcing: Relaxed KV-Memory for Consistent Long Video Generation [73.84423888025171]
オートレグレッシブ(AR)ビデオ拡散は,近年,長大なビデオ生成において有望なパラダイムとして浮上している。
時間的劣化が進行しているため, 生成から微小スケールの地平線への延長は依然として困難であることを示す。
本稿では,AR拡散のための時間記憶機構であるRelax Forcingを紹介する。
論文 参考訳(メタデータ) (2026-03-22T18:59:24Z) - S2GS: Streaming Semantic Gaussian Splatting for Online Scene Understanding and Reconstruction [57.07346645250984]
Streaming Semantic Gaussian Splatting (S2GS) は厳密に因果的かつ漸進的な3D Gaussianセマンティックフィールドフレームワークである。
将来のフレームを活用せず、歴史的フレームを再処理することなく、シーンの幾何学、外観、インスタンスレベルのセマンティクスを継続的に更新する。
S2GSは、ジョイントリコンストラクションとアンダーホールドのベンチマークにおいて、強いオフラインベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2026-03-15T05:48:55Z) - MemRoPE: Training-Free Infinite Video Generation via Evolving Memory Tokens [34.228121359393775]
2つの共同設計コンポーネントを備えたトレーニングフリーフレームワークであるMemRoPEを紹介した。
オンラインRoPEインデックスは、回転しないキーをキャッシュし、注意時に位置埋め込みを動的に適用する。
MemRoPEは、時間的コヒーレンス、視覚的忠実度、主観的一貫性において、毎分から1時間単位で既存の手法より優れている。
論文 参考訳(メタデータ) (2026-03-12T23:14:16Z) - LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文 参考訳(メタデータ) (2026-01-23T17:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。