論文の概要: Taming Teacher Forcing for Masked Autoregressive Video Generation
- arxiv url: http://arxiv.org/abs/2501.12389v1
- Date: Tue, 21 Jan 2025 18:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:04.562783
- Title: Taming Teacher Forcing for Masked Autoregressive Video Generation
- Title(参考訳): マスク自動回帰ビデオ生成のための教師のタイピング
- Authors: Deyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum,
- Abstract要約: 我々は、フレーム内生成のためのマスク付きモデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドビデオ生成フレームワークMAGIを紹介する。
我々の重要な革新である完全教師強制(CTF)は、マスクされたフレームではなく、完全な観察フレーム上の条件付きフレームである。CTFは、MTFを著しく上回り、第1フレーム条件付きビデオ予測において、FVDスコアが+23%向上した。
実験によると、MAGIは16フレームまで訓練しても、100フレームを超える長いコヒーレントなビデオシーケンスを生成することができ、スケーラブルで高品質なビデオ生成の可能性を強調している。
- 参考スコア(独自算出の注目度): 63.477471494341955
- License:
- Abstract: We introduce MAGI, a hybrid video generation framework that combines masked modeling for intra-frame generation with causal modeling for next-frame generation. Our key innovation, Complete Teacher Forcing (CTF), conditions masked frames on complete observation frames rather than masked ones (namely Masked Teacher Forcing, MTF), enabling a smooth transition from token-level (patch-level) to frame-level autoregressive generation. CTF significantly outperforms MTF, achieving a +23% improvement in FVD scores on first-frame conditioned video prediction. To address issues like exposure bias, we employ targeted training strategies, setting a new benchmark in autoregressive video generation. Experiments show that MAGI can generate long, coherent video sequences exceeding 100 frames, even when trained on as few as 16 frames, highlighting its potential for scalable, high-quality video generation.
- Abstract(参考訳): 我々は、フレーム内生成のためのマスク付きモデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドビデオ生成フレームワークMAGIを紹介する。
キーとなるイノベーションは、CTF(Complete Teacher Forcing)であり、マスクされたもの(Masked Teacher Forcing, MTF)ではなく、完全な観察フレーム上の条件付きフレームをマスクし、トークンレベル(パッチレベル)からフレームレベルの自己回帰生成へのスムーズな移行を可能にする。
CTFは、第1フレーム条件付きビデオ予測において、FVDのスコアが+23%向上した。
露光バイアスなどの問題に対処するため、我々は目標とするトレーニング戦略を採用し、自動回帰ビデオ生成の新しいベンチマークを設定した。
実験によると、MAGIは16フレームまで訓練しても、100フレームを超える長いコヒーレントなビデオシーケンスを生成することができ、スケーラブルで高品質なビデオ生成の可能性を強調している。
関連論文リスト
- MaskFlow: Discrete Flows For Flexible and Efficient Long Video Generation [25.721829124345106]
離散表現とフローマッチングを組み合わせた統合ビデオ生成フレームワークである textbfMaskFlow を紹介する。
トレーニング中にフレームレベルのマスキング戦略を活用することで、MaskFlowはトレーニングシーケンスの10倍以上の長さのビデオを生成する。
我々は,FaceForensics (FFS) とDeepmind Lab (DMLab) のデータセットにおける手法の品質を検証するとともに,最先端のアプローチと競合するFr'echet Video Distance (FVD) を報告する。
論文 参考訳(メタデータ) (2025-02-16T18:59:11Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Concatenated Masked Autoencoders as Spatial-Temporal Learner [6.475592804311682]
自己教師型ビデオ表現学習のための時空間学習システムとして,Concatenated Masked Autoencoders (CatMAE)を導入した。
そこで本研究では,ビデオフレームをモデル再構成ターゲットとして用いた新しいデータ拡張戦略であるVideo-Reverse(ViRe)を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:08:26Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Tell Me What Happened: Unifying Text-guided Video Completion via
Multimodal Masked Video Generation [82.26026492545533]
そこで本研究では,命令で案内された部分フレームから映像を生成することをモデルに要求する,新しいタスクであるテキスト誘導ビデオ補完(TVC)を提案する。
次に,このTVC課題に対処するため,MMVG(Multimodal Masked Video Generation)を提案する。
推測時に、単一のMMVGモデルは、対応するマスキング条件を適用することで、ビデオ予測、巻き戻し、埋め込みを含むTVCの3つのケースすべてに対処することができる。
論文 参考訳(メタデータ) (2022-11-23T10:14:12Z) - Masked Conditional Video Diffusion for Prediction, Generation, and
Interpolation [14.631523634811392]
Masked Conditional Video Diffusion (MCVD) はビデオ予測のための汎用フレームワークである。
私たちは、過去のフレームや将来のフレームをすべて無作為に、無作為に、独立してマスクする方法でモデルをトレーニングします。
提案手法は,1~12日で計算時間を計測し,標準的なビデオ予測ベンチマークにまたがってSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-05-19T20:58:05Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。