論文の概要: Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.12626v3
- Date: Tue, 14 Oct 2025 23:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.404919
- Title: Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models
- Title(参考訳): 次世代映像拡散モデルにおけるフレームコンテキストのパッキングとドリフト防止
- Authors: Lvmin Zhang, Shengqu Cai, Muyang Li, Gordon Wetzstein, Maneesh Agrawala,
- Abstract要約: ビデオ生成のための次フレーム(または次フレーム)予測モデルをトレーニングするためのニューラルネットワーク構造であるFramePackを提案する。
FramePackは入力フレームコンテキストをフレーム単位の重要度で圧縮し、より多くのフレームを固定されたコンテキスト長内にエンコードする。
既存のビデオ拡散モデルをFramePackで微調整できることを示し、異なるパッキングスケジュールの違いを分析する。
- 参考スコア(独自算出の注目度): 63.99949971803903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a neural network structure, FramePack, to train next-frame (or next-frame-section) prediction models for video generation. FramePack compresses input frame contexts with frame-wise importance so that more frames can be encoded within a fixed context length, with more important frames having longer contexts. The frame importance can be measured using time proximity, feature similarity, or hybrid metrics. The packing method allows for inference with thousands of frames and training with relatively large batch sizes. We also present drift prevention methods to address observation bias (error accumulation), including early-established endpoints, adjusted sampling orders, and discrete history representation. Ablation studies validate the effectiveness of the anti-drifting methods in both single-directional video streaming and bi-directional video generation. Finally, we show that existing video diffusion models can be finetuned with FramePack, and analyze the differences between different packing schedules.
- Abstract(参考訳): ビデオ生成のための次フレーム(または次フレーム)予測モデルをトレーニングするためのニューラルネットワーク構造であるFramePackを提案する。
FramePackは入力フレームコンテキストをフレーム単位の重要度で圧縮し、より多くのフレームを固定されたコンテキスト長内にエンコードできるようにし、より重要なフレームはより長いコンテキストを持つ。
フレームの重要度は、時間的近接度、特徴的類似度、ハイブリッドメトリクスを使用して測定することができる。
このパッキング方式は、数千フレームの推論と比較的大きなバッチサイズでのトレーニングを可能にする。
また、早期に確立されたエンドポイント、調整されたサンプリング順序、離散履歴表現を含む、観測バイアス(エラー蓄積)に対処する漂流防止手法を提案する。
アブレーション研究は, 単方向ビデオストリーミングと双方向ビデオ生成の両方において, 抗ドリフト法の有効性を検証した。
最後に、既存のビデオ拡散モデルをFramePackで微調整できることを示し、異なるパッキングスケジュールの違いを分析する。
関連論文リスト
- Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - Continuous Video Process: Modeling Videos as Continuous Multi-Dimensional Processes for Video Prediction [43.16308241800144]
本稿では,映像を連続的な多次元プロセスとして扱う新しいモデルクラスを提案する。
我々は、KTH、BAIR、Human3.6M、UCF101などのベンチマークデータセットで検証された、ビデオ予測における最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-12-06T10:34:50Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Aggregating Nearest Sharp Features via Hybrid Transformers for Video Deblurring [70.06559269075352]
本稿では,隣接するフレームと既存のシャープフレームの両方を特徴集約のためにハイブリッドトランスフォーマーを用いて活用するビデオデブロアリング手法を提案する。
検出されたシャープフレームから最も近いシャープ特徴を集約するために,マルチスケールマッチング機能を備えたグローバルトランスを利用する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - Masked Conditional Video Diffusion for Prediction, Generation, and
Interpolation [14.631523634811392]
Masked Conditional Video Diffusion (MCVD) はビデオ予測のための汎用フレームワークである。
私たちは、過去のフレームや将来のフレームをすべて無作為に、無作為に、独立してマスクする方法でモデルをトレーニングします。
提案手法は,1~12日で計算時間を計測し,標準的なビデオ予測ベンチマークにまたがってSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-05-19T20:58:05Z) - SwinBERT: End-to-End Transformers with Sparse Attention for Video
Captioning [40.556222166309524]
ビデオキャプションのためのエンドツーエンドトランスフォーマーモデルであるSwinBERTを提案する。
提案手法では,ビデオ入力の可変長に適応可能な空間時間表現を符号化するために,ビデオトランスフォーマを採用している。
このモデルアーキテクチャに基づいて,より密集したビデオフレームの映像キャプションが有用であることを示す。
論文 参考訳(メタデータ) (2021-11-25T18:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。