論文の概要: MaskFlow: Discrete Flows For Flexible and Efficient Long Video Generation
- arxiv url: http://arxiv.org/abs/2502.11234v2
- Date: Wed, 12 Mar 2025 16:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 22:49:40.699404
- Title: MaskFlow: Discrete Flows For Flexible and Efficient Long Video Generation
- Title(参考訳): MaskFlow:フレキシブルで効率的なビデオ生成のための離散フロー
- Authors: Michael Fuest, Vincent Tao Hu, Björn Ommer,
- Abstract要約: 本稿では,個別表現とフローマッチングを組み合わせた統合ビデオ生成フレームワークMaskFlowを紹介する。
トレーニング中にフレームレベルのマスキング戦略を活用することで、以前に生成したアンマスクフレーム上のMaskFlow条件を使用して、トレーニングシーケンスの10倍以上の長さのビデオを生成する。
我々は,FaceForensics (FFS) とDeepmind Lab (DMLab) のデータセットにおける手法の品質を検証するとともに,最先端のアプローチと競合するFrechet Video Distance (FVD) を報告する。
- 参考スコア(独自算出の注目度): 25.721829124345106
- License:
- Abstract: Generating long, high-quality videos remains a challenge due to the complex interplay of spatial and temporal dynamics and hardware limitations. In this work, we introduce MaskFlow, a unified video generation framework that combines discrete representations with flow-matching to enable efficient generation of high-quality long videos. By leveraging a frame-level masking strategy during training, MaskFlow conditions on previously generated unmasked frames to generate videos with lengths ten times beyond that of the training sequences. MaskFlow does so very efficiently by enabling the use of fast Masked Generative Model (MGM)-style sampling and can be deployed in both fully autoregressive as well as full-sequence generation modes. We validate the quality of our method on the FaceForensics (FFS) and Deepmind Lab (DMLab) datasets and report Frechet Video Distance (FVD) competitive with state-of-the-art approaches. We also provide a detailed analysis on the sampling efficiency of our method and demonstrate that MaskFlow can be applied to both timestep-dependent and timestep-independent models in a training-free manner.
- Abstract(参考訳): 長時間の高品質なビデオを生成することは、空間的・時間的ダイナミクスとハードウェアの制約が複雑に絡み合っているため、依然として課題である。
本研究では、離散表現とフローマッチングを組み合わせた統合ビデオ生成フレームワークであるMaskFlowを紹介し、高品質な長ビデオの効率的な生成を可能にする。
トレーニング中にフレームレベルのマスキング戦略を活用することで、以前に生成したアンマスクフレーム上のMaskFlow条件を使用して、トレーニングシーケンスの10倍以上の長さのビデオを生成する。
MaskFlowは、高速なMasked Generative Model (MGM)スタイルのサンプリングを可能にすることで、非常に効率的に動作し、完全な自己回帰とフルシーケンス生成モードの両方にデプロイすることができる。
我々は,FaceForensics (FFS) とDeepmind Lab (DMLab) のデータセットにおける手法の品質を検証するとともに,最先端のアプローチと競合するFrechet Video Distance (FVD) を報告する。
また,本手法のサンプリング効率について詳細な解析を行い,MaskFlowを時間ステップ依存モデルと時間ステップ依存モデルの両方に適用できることを示した。
関連論文リスト
- Taming Teacher Forcing for Masked Autoregressive Video Generation [63.477471494341955]
我々は、フレーム内生成のためのマスク付きモデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドビデオ生成フレームワークMAGIを紹介する。
我々の重要な革新である完全教師強制(CTF)は、マスクされたフレームではなく、完全な観察フレーム上の条件付きフレームである。CTFは、MTFを著しく上回り、第1フレーム条件付きビデオ予測において、FVDスコアが+23%向上した。
実験によると、MAGIは16フレームまで訓練しても、100フレームを超える長いコヒーレントなビデオシーケンスを生成することができ、スケーラブルで高品質なビデオ生成の可能性を強調している。
論文 参考訳(メタデータ) (2025-01-21T18:59:31Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - AU-vMAE: Knowledge-Guide Action Units Detection via Video Masked Autoencoder [38.04963261966939]
顔行動単位(FAU)検出のためのビデオレベルの事前学習方式を提案する。
我々の設計の中心は、ビデオマインドオートエンコーダに基づく事前訓練されたビデオ特徴抽出器である。
提案手法は,BP4DおよびdisFA FAUsデータセットで使用されている既存の最先端手法と比較して,性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-16T08:07:47Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - MGMAE: Motion Guided Masking for Video Masked Autoencoding [34.80832206608387]
時間的冗長性は、ビデオMAEのマスキング比が高く、マスキング戦略をカスタマイズしている。
我々の動き誘導マスクは、時間的一貫したマスキングボリュームを構築するために、運動情報を明示的に組み込む。
我々は、Something V2 と Kinetics-400 のデータセット上で実験を行い、MGMAE が元の VideoMAE よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-21T15:39:41Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Masked Contrastive Pre-Training for Efficient Video-Text Retrieval [37.05164804180039]
我々は、シンプルだが効果的なビデオ言語事前学習(VidLP)フレームワーク、Masked Contrastive Video-Language Pretraining(MAC)を提案する。
我々のMACは、VidLPモデルにおける映像表現の空間的および時間的冗長性を低減することを目的としている。
これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。
論文 参考訳(メタデータ) (2022-12-02T05:44:23Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。
長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。
さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文 参考訳(メタデータ) (2021-03-21T06:15:20Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。