論文の概要: MAGREF: Masked Guidance for Any-Reference Video Generation
- arxiv url: http://arxiv.org/abs/2505.23742v1
- Date: Thu, 29 May 2025 17:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.073228
- Title: MAGREF: Masked Guidance for Any-Reference Video Generation
- Title(参考訳): MAGREF:Masked Guidance for Any-Reference Video Generation
- Authors: Yufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma,
- Abstract要約: MAGREFは、任意の参照ビデオ生成のための統一されたフレームワークである。
本研究では,一つのモデルで様々な対象推定を柔軟に処理できる領域認識型動的マスキング機構を提案する。
我々のモデルは、単目的訓練から複雑な多目的シナリオまで、最先端のビデオ生成品質を提供する。
- 参考スコア(独自算出の注目度): 33.35245169242822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation has made substantial strides with the emergence of deep generative models, especially diffusion-based approaches. However, video generation based on multiple reference subjects still faces significant challenges in maintaining multi-subject consistency and ensuring high generation quality. In this paper, we propose MAGREF, a unified framework for any-reference video generation that introduces masked guidance to enable coherent multi-subject video synthesis conditioned on diverse reference images and a textual prompt. Specifically, we propose (1) a region-aware dynamic masking mechanism that enables a single model to flexibly handle various subject inference, including humans, objects, and backgrounds, without architectural changes, and (2) a pixel-wise channel concatenation mechanism that operates on the channel dimension to better preserve appearance features. Our model delivers state-of-the-art video generation quality, generalizing from single-subject training to complex multi-subject scenarios with coherent synthesis and precise control over individual subjects, outperforming existing open-source and commercial baselines. To facilitate evaluation, we also introduce a comprehensive multi-subject video benchmark. Extensive experiments demonstrate the effectiveness of our approach, paving the way for scalable, controllable, and high-fidelity multi-subject video synthesis. Code and model can be found at: https://github.com/MAGREF-Video/MAGREF
- Abstract(参考訳): ビデオ生成は、特に拡散に基づくアプローチの深層生成モデルの出現に大きく貢献している。
しかし、複数の参照対象に基づくビデオ生成は、多目的整合性の維持と高次品質の確保に依然として大きな課題に直面している。
本稿では,多様な参照画像とテキストプロンプトを条件としたコヒーレントなマルチオブジェクトビデオ合成を実現するためのマスク付きガイダンスを導入した,任意の参照ビデオ生成のための統合フレームワークMAGREFを提案する。
具体的には,1つのモデルが,建築上の変化を伴わずに,人間,物体,背景を含む様々な対象推論を柔軟に処理できる領域認識型動的マスキング機構と,チャネル次元で動作する画素ワイドチャネル結合機構を提案し,外観特性をよりよく保存する。
本モデルでは,一目的学習から複雑な多目的シナリオへの一般化,コヒーレントな合成と個々の対象の精密制御,そして既存のオープンソースおよび商用ベースラインよりも優れた,最先端のビデオ生成品質を提供する。
評価を容易にするため,包括的マルチオブジェクトビデオベンチマークも導入した。
広汎な実験により、我々のアプローチの有効性を実証し、スケーラブルで、制御可能で、高忠実なマルチオブジェクトビデオ合成への道を開いた。
コードとモデルについては、https://github.com/MAGREF-Video/MAGREFを参照してください。
関連論文リスト
- Resource-Efficient Motion Control for Video Generation via Dynamic Mask Guidance [2.5941932242768457]
マスク誘導ビデオ生成は、マスクモーションシーケンスを介して映像生成を制御することができる。
提案モデルは,テキスト位置マッチングと移動軌跡制御のための前景マスクを組み込むことにより,既存のアーキテクチャを改良する。
このアプローチは、ビデオ編集やアートビデオ生成などの様々なビデオ生成タスクに優れ、一貫性と品質の点で従来の手法よりも優れている。
論文 参考訳(メタデータ) (2025-03-24T06:53:08Z) - CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance [34.345125922868]
MLLM(Multimodal Large Language Model)を利用したコヒーレントなマルチオブジェクトビデオ生成フレームワークCINEMAを提案する。
提案手法では,対象画像とテキストエンティティとの明示的な対応の必要性を排除し,曖昧さを軽減し,アノテーションの労力を削減する。
当社のフレームワークはさまざまな主題に適応でき、パーソナライズされたコンテンツ作成の柔軟性が向上する。
論文 参考訳(メタデータ) (2025-03-13T14:07:58Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。
提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文 参考訳(メタデータ) (2024-10-06T15:03:22Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。