論文の概要: Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation
- arxiv url: http://arxiv.org/abs/2503.19881v1
- Date: Tue, 25 Mar 2025 17:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:02.046961
- Title: Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation
- Title(参考訳): Mask$2$DiT:マルチシーンビデオ生成用デュアルマスクベース拡散変換器
- Authors: Tianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu, SiYu Zhou, Qian He, Hongtao Xie, Yongdong Zhang,
- Abstract要約: Mask$2$DiTは、ビデオセグメントとその対応するテキストアノテーション間の微細で1対1のアライメントを確立する。
このアテンション機構は、正確にセグメントレベルのテキストと視覚のアライメントを可能にする。
Mask$2$DiTはセグメント間の視覚的一貫性を維持しつつ、各セグメントとその対応するテキスト記述間のセマンティックアライメントを保証する。
- 参考スコア(独自算出の注目度): 62.56037816595509
- License:
- Abstract: Sora has unveiled the immense potential of the Diffusion Transformer (DiT) architecture in single-scene video generation. However, the more challenging task of multi-scene video generation, which offers broader applications, remains relatively underexplored. To bridge this gap, we propose Mask$^2$DiT, a novel approach that establishes fine-grained, one-to-one alignment between video segments and their corresponding text annotations. Specifically, we introduce a symmetric binary mask at each attention layer within the DiT architecture, ensuring that each text annotation applies exclusively to its respective video segment while preserving temporal coherence across visual tokens. This attention mechanism enables precise segment-level textual-to-visual alignment, allowing the DiT architecture to effectively handle video generation tasks with a fixed number of scenes. To further equip the DiT architecture with the ability to generate additional scenes based on existing ones, we incorporate a segment-level conditional mask, which conditions each newly generated segment on the preceding video segments, thereby enabling auto-regressive scene extension. Both qualitative and quantitative experiments confirm that Mask$^2$DiT excels in maintaining visual consistency across segments while ensuring semantic alignment between each segment and its corresponding text description. Our project page is https://tianhao-qi.github.io/Mask2DiTProject.
- Abstract(参考訳): Soraは、単一シーンのビデオ生成におけるDiffusion Transformer(DiT)アーキテクチャの膨大な可能性を明らかにした。
しかし、より広範なアプリケーションを提供するマルチシーンビデオ生成の課題は、いまだに未解明のままである。
このギャップを埋めるために,ビデオセグメントと対応するテキストアノテーション間の微細な一対一のアライメントを確立する新しいアプローチであるMask$^2$DiTを提案する。
具体的には、DiTアーキテクチャ内の各注目層に対称二項マスクを導入し、各テキストアノテーションが各ビデオセグメントにのみ適用されることを保証するとともに、視覚トークン間の時間的コヒーレンスを保存する。
このアテンション機構により、精度の高いセグメントレベルのテキストと視覚のアライメントが可能になり、DiTアーキテクチャは、固定されたシーン数で映像生成タスクを効果的に処理できる。
既存のシーンに基づいて追加シーンを生成する機能を備えたDiTアーキテクチャをさらに装備するため、セグメントレベルの条件付きマスクを組み込んだ。
定性的かつ定量的な実験は、Mask$^2$DiTがセグメント間の視覚的整合性を維持しつつ、各セグメントとその対応するテキスト記述とのセマンティックアライメントを確保していることを確認した。
私たちのプロジェクトページはhttps://tianhao-qi.github.io/Mask2DiTProjectです。
関連論文リスト
- Ingredients: Blending Custom Photos with Video Diffusion Transformers [31.736838809714726]
Ingredientsは、複数の特定ID(ID)写真を含むビデオ作成をカスタマイズするフレームワークである。
i) グローバルとローカルの両方の観点から、ヒトのIDごとに多目的かつ正確な顔の特徴をキャプチャする顔抽出器、(ii) 映像拡散変換器における画像クエリのコンテキスト空間に顔埋め込みをマッピングするマルチスケールプロジェクター、(iii) 対応する時空領域に複数のID埋め込みを動的に結合し割り当てるIDルータからなる。
論文 参考訳(メタデータ) (2025-01-03T12:45:22Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - Text-Guided Video Masked Autoencoder [12.321239366215426]
本稿では,ペア字幕に高い対応で映像領域をマスキングする新しいテキスト誘導マスキングアルゴリズム(TGM)を提案する。
既存のマスキングアルゴリズム、統一MAE、マスキングビデオテキストコントラスト学習により、純粋なMAEと比較して下流性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-01T17:58:19Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。