論文の概要: M4V: Multi-Modal Mamba for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2506.10915v1
- Date: Thu, 12 Jun 2025 17:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.866208
- Title: M4V: Multi-Modal Mamba for Text-to-Video Generation
- Title(参考訳): M4V:テキスト・ビデオ・ジェネレーションのためのマルチモーダル・マンバ
- Authors: Jiancheng Huang, Gengwei Zhang, Zequn Jie, Siyu Jiao, Yinlong Qian, Ling Chen, Yunchao Wei, Lin Ma,
- Abstract要約: テキスト・ビデオ・ジェネレーションはコンテンツを豊かにし、強力な世界シミュレータを作る可能性を秘めている。
広大な空間のモデリングは、特にシークエンス処理に二次的を利用する場合、計算的に要求される。
テキスト・ビデオ生成のためのマルチモーダル・マンバフレームワークを提案する。
テキストとビデオのベンチマーク実験では、M4Vが高品質なビデオを生成する能力を示しながら、計算コストを大幅に削減した。
- 参考スコア(独自算出の注目度): 58.51139515986472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video generation has significantly enriched content creation and holds the potential to evolve into powerful world simulators. However, modeling the vast spatiotemporal space remains computationally demanding, particularly when employing Transformers, which incur quadratic complexity in sequence processing and thus limit practical applications. Recent advancements in linear-time sequence modeling, particularly the Mamba architecture, offer a more efficient alternative. Nevertheless, its plain design limits its direct applicability to multi-modal and spatiotemporal video generation tasks. To address these challenges, we introduce M4V, a Multi-Modal Mamba framework for text-to-video generation. Specifically, we propose a multi-modal diffusion Mamba (MM-DiM) block that enables seamless integration of multi-modal information and spatiotemporal modeling through a multi-modal token re-composition design. As a result, the Mamba blocks in M4V reduce FLOPs by 45% compared to the attention-based alternative when generating videos at 768$\times$1280 resolution. Additionally, to mitigate the visual quality degradation in long-context autoregressive generation processes, we introduce a reward learning strategy that further enhances per-frame visual realism. Extensive experiments on text-to-video benchmarks demonstrate M4V's ability to produce high-quality videos while significantly lowering computational costs. Code and models will be publicly available at https://huangjch526.github.io/M4V_project.
- Abstract(参考訳): テキスト・ビデオ・ジェネレーションは、コンテンツ生成を著しく豊かにし、強力な世界シミュレータへと進化する可能性を秘めている。
しかし、大規模な時空間のモデリングは、特にシークエンス処理において二次的な複雑さを伴い、実用的な応用を制限するトランスフォーマーを使用する場合、計算的に要求されるままである。
線形時間シーケンスモデリングの最近の進歩、特にMambaアーキテクチャは、より効率的な代替手段を提供する。
それでも、その平易な設計は、マルチモーダルおよび時空間ビデオ生成タスクへの直接的な適用性を制限している。
これらの課題に対処するために,テキスト・ビデオ・ジェネレーションのためのマルチモーダル・マンバ・フレームワークであるM4Vを紹介する。
具体的には,マルチモーダルトークン再構成設計によるマルチモーダル情報と時空間モデリングのシームレスな統合を可能にするマルチモーダル拡散マンバ(MM-DiM)ブロックを提案する。
その結果、M4VのMambaブロックは、768$\times$1280の解像度でビデオを生成する場合に比べてFLOPを45%削減した。
また、長文自動回帰生成プロセスにおける視覚的品質劣化を軽減するために、フレーム単位の視覚リアリズムをさらに強化する報奨学習戦略を導入する。
テキストとビデオのベンチマークによる大規模な実験は、M4Vが高品質なビデオを作成する能力を示しながら、計算コストを大幅に削減した。
コードとモデルはhttps://huangjch526.github.io/M4V_project.comで公開される。
関連論文リスト
- MLVTG: Mamba-Based Feature Alignment and LLM-Driven Purification for Multi-Modal Video Temporal Grounding [13.025856914576673]
Video Temporal Groundingは、自然言語クエリに対応するビデオクリップをローカライズすることを目的としている。
既存のTransformerベースの手法は、しばしば冗長な注意と準最適マルチモーダルアライメントに悩まされる。
MLVTGは,MambaAligner と LLMRefiner の2つの重要なモジュールを統合した新しいフレームワークである。
論文 参考訳(メタデータ) (2025-06-10T07:20:12Z) - OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts [46.77966058862399]
我々は,OmniLLMs用に最適化された総合マルチモーダルインタラクションベンチマークであるOmniMMIを紹介する。
本稿では,マルチモーダル・マルチプレクサリング・モデリング(M4)を提案する。
論文 参考訳(メタデータ) (2025-03-29T02:46:58Z) - Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model [60.171601995737646]
Mobile-VideoGPTはビデオ理解のための効率的なマルチモーダルフレームワークである。
軽量なデュアルビジュアルエンコーダ、効率的なプロジェクタ、小型言語モデル(SLM)で構成されている。
その結果,Mobile-VideoGPT-0.5Bは最大46トークンを毎秒生成できることがわかった。
論文 参考訳(メタデータ) (2025-03-27T17:59:58Z) - VideoMAP: Toward Scalable Mamba-based Video Autoregressive Pretraining [31.44538839153902]
VideoMAPは、新しい事前トレーニングアプローチを備えたHybrid Mamba-Transformerフレームワークである。
また,ビデオMAPはサンプル効率が優れており,トレーニングデータの少ない既存手法よりも優れていた。
また,マルチモーダルな大言語モデルのためのビジュアルエンコーダとしての VideoMAP の可能性を示す。
論文 参考訳(メタデータ) (2025-03-16T03:01:07Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation [36.44678935063189]
mmMambaは、線形複雑でネイティブなマルチモーダル状態空間モデルを開発するためのフレームワークである。
提案手法は,訓練されたデコーダのみのMLLMを線形複雑度アーキテクチャへ直接変換することを可能にする。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。