論文の概要: Taming Teacher Forcing for Masked Autoregressive Video Generation
- arxiv url: http://arxiv.org/abs/2501.12389v1
- Date: Tue, 21 Jan 2025 18:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:04.562783
- Title: Taming Teacher Forcing for Masked Autoregressive Video Generation
- Title(参考訳): マスク自動回帰ビデオ生成のための教師のタイピング
- Authors: Deyu Zhou, Quan Sun, Yuang Peng, Kun Yan, Runpei Dong, Duomin Wang, Zheng Ge, Nan Duan, Xiangyu Zhang, Lionel M. Ni, Heung-Yeung Shum,
- Abstract要約: 我々は、フレーム内生成のためのマスク付きモデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドビデオ生成フレームワークMAGIを紹介する。
我々の重要な革新である完全教師強制(CTF)は、マスクされたフレームではなく、完全な観察フレーム上の条件付きフレームである。CTFは、MTFを著しく上回り、第1フレーム条件付きビデオ予測において、FVDスコアが+23%向上した。
実験によると、MAGIは16フレームまで訓練しても、100フレームを超える長いコヒーレントなビデオシーケンスを生成することができ、スケーラブルで高品質なビデオ生成の可能性を強調している。
- 参考スコア(独自算出の注目度): 63.477471494341955
- License:
- Abstract: We introduce MAGI, a hybrid video generation framework that combines masked modeling for intra-frame generation with causal modeling for next-frame generation. Our key innovation, Complete Teacher Forcing (CTF), conditions masked frames on complete observation frames rather than masked ones (namely Masked Teacher Forcing, MTF), enabling a smooth transition from token-level (patch-level) to frame-level autoregressive generation. CTF significantly outperforms MTF, achieving a +23% improvement in FVD scores on first-frame conditioned video prediction. To address issues like exposure bias, we employ targeted training strategies, setting a new benchmark in autoregressive video generation. Experiments show that MAGI can generate long, coherent video sequences exceeding 100 frames, even when trained on as few as 16 frames, highlighting its potential for scalable, high-quality video generation.
- Abstract(参考訳): 我々は、フレーム内生成のためのマスク付きモデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドビデオ生成フレームワークMAGIを紹介する。
キーとなるイノベーションは、CTF(Complete Teacher Forcing)であり、マスクされたもの(Masked Teacher Forcing, MTF)ではなく、完全な観察フレーム上の条件付きフレームをマスクし、トークンレベル(パッチレベル)からフレームレベルの自己回帰生成へのスムーズな移行を可能にする。
CTFは、第1フレーム条件付きビデオ予測において、FVDのスコアが+23%向上した。
露光バイアスなどの問題に対処するため、我々は目標とするトレーニング戦略を採用し、自動回帰ビデオ生成の新しいベンチマークを設定した。
実験によると、MAGIは16フレームまで訓練しても、100フレームを超える長いコヒーレントなビデオシーケンスを生成することができ、スケーラブルで高品質なビデオ生成の可能性を強調している。
関連論文リスト
- Concatenated Masked Autoencoders as Spatial-Temporal Learner [6.475592804311682]
自己教師型ビデオ表現学習のための時空間学習システムとして,Concatenated Masked Autoencoders (CatMAE)を導入した。
そこで本研究では,ビデオフレームをモデル再構成ターゲットとして用いた新しいデータ拡張戦略であるVideo-Reverse(ViRe)を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:08:26Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Tell Me What Happened: Unifying Text-guided Video Completion via
Multimodal Masked Video Generation [82.26026492545533]
そこで本研究では,命令で案内された部分フレームから映像を生成することをモデルに要求する,新しいタスクであるテキスト誘導ビデオ補完(TVC)を提案する。
次に,このTVC課題に対処するため,MMVG(Multimodal Masked Video Generation)を提案する。
推測時に、単一のMMVGモデルは、対応するマスキング条件を適用することで、ビデオ予測、巻き戻し、埋め込みを含むTVCの3つのケースすべてに対処することができる。
論文 参考訳(メタデータ) (2022-11-23T10:14:12Z) - Masked Conditional Video Diffusion for Prediction, Generation, and
Interpolation [14.631523634811392]
Masked Conditional Video Diffusion (MCVD) はビデオ予測のための汎用フレームワークである。
私たちは、過去のフレームや将来のフレームをすべて無作為に、無作為に、独立してマスクする方法でモデルをトレーニングします。
提案手法は,1~12日で計算時間を計測し,標準的なビデオ予測ベンチマークにまたがってSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-05-19T20:58:05Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。