論文の概要: Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction
- arxiv url: http://arxiv.org/abs/2603.25209v1
- Date: Thu, 26 Mar 2026 09:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.207189
- Title: Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction
- Title(参考訳): 層適応型O.O.D補正によるフリーランチ長ビデオ生成
- Authors: Jiahao Tian, Chenxi Song, Wei Cheng, Chi Zhang,
- Abstract要約: 長ビデオ推論のための学習自由層適応フレームワークFreeLOCを提案する。
提案手法は, 時間的整合性と視覚的品質の両面において, 既存のトレーニング不要の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 12.736570247861309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating long videos using pre-trained video diffusion models, which are typically trained on short clips, presents a significant challenge. Directly applying these models for long-video inference often leads to a notable degradation in visual quality. This paper identifies that this issue primarily stems from two out-of-distribution (O.O.D) problems: frame-level relative position O.O.D and context-length O.O.D. To address these challenges, we propose FreeLOC, a novel training-free, layer-adaptive framework that introduces two core techniques: Video-based Relative Position Re-encoding (VRPR) for frame-level relative position O.O.D, a multi-granularity strategy that hierarchically re-encodes temporal relative positions to align with the model's pre-trained distribution, and Tiered Sparse Attention (TSA) for context-length O.O.D, which preserves both local detail and long-range dependencies by structuring attention density across different temporal scales. Crucially, we introduce a layer-adaptive probing mechanism that identifies the sensitivity of each transformer layer to these O.O.D issues, allowing for the selective and efficient application of our methods. Extensive experiments demonstrate that our approach significantly outperforms existing training-free methods, achieving state-of-the-art results in both temporal consistency and visual quality. Code is available at https://github.com/Westlake-AGI-Lab/FreeLOC.
- Abstract(参考訳): トレーニング済みのビデオ拡散モデルを使って長いビデオを生成することは、通常短いクリップで訓練されるが、大きな課題である。
これらのモデルを長時間ビデオ推論に直接適用すると、視覚的品質が著しく低下する。
フレームレベルの相対的位置 O.O.D とコンテキスト長 O.O.D の2つの問題に対処するため,我々は,フレームレベルの相対的位置 O.O.D に対してビデオベース相対的位置再符号化 (VRPR) という,フレームレベルの相対的位置の時間的相対的位置を階層的に再エンコードする手法と,コンテキスト長 O.O.D に対するタイアードスパース注意 (TSA) という2つのコア技術を導入した,新たなトレーニング自由層適応フレームワーク FreeLOC を提案する。
これらのO.O.D問題に対して各トランス層の感度を識別する層適応型探索機構を導入し,本手法の選択的かつ効率的な適用を可能にした。
広汎な実験により、我々のアプローチは既存のトレーニング不要の手法よりも大幅に優れており、時間的一貫性と視覚的品質の両方において最先端の結果が得られている。
コードはhttps://github.com/Westlake-AGI-Lab/FreeLOCで入手できる。
関連論文リスト
- Temporal In-Context Fine-Tuning for Versatile Control of Video Diffusion Models [34.131515004434846]
我々は,事前学習した映像拡散モデルを条件付き生成タスクに適用するための効率的なアプローチであるTIC-FT(Temporal In-Context Fine-Tuning)を導入する。
TIC-FTはアーキテクチャの変更を必要とせず、10-30のトレーニングサンプルで高いパフォーマンスを実現している。
我々は,CagVideoX-5B や Wan-14B といった大規模ベースモデルを用いて,映像映像生成や映像映像生成など,様々なタスクにまたがる手法を検証する。
論文 参考訳(メタデータ) (2025-06-01T12:57:43Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。