論文の概要: Matten: Video Generation with Mamba-Attention
- arxiv url: http://arxiv.org/abs/2405.03025v2
- Date: Fri, 10 May 2024 08:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 17:45:54.538555
- Title: Matten: Video Generation with Mamba-Attention
- Title(参考訳): Matten氏:Mamba-Attentionを使ったビデオ生成
- Authors: Yu Gao, Jiancheng Huang, Xiaopeng Sun, Zequn Jie, Yujie Zhong, Lin Ma,
- Abstract要約: ビデオ生成のためのMamba-Attentionアーキテクチャを用いた最先端の潜伏拡散モデルであるMattenを紹介する。
最小の計算コストで、Mattenは局所的なビデオコンテンツモデリングとグローバルなビデオコンテンツモデリングのための双方向のMambaに空間的注意を払っている。
- 参考スコア(独自算出の注目度): 26.957122593312278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Matten, a cutting-edge latent diffusion model with Mamba-Attention architecture for video generation. With minimal computational cost, Matten employs spatial-temporal attention for local video content modeling and bidirectional Mamba for global video content modeling. Our comprehensive experimental evaluation demonstrates that Matten has competitive performance with the current Transformer-based and GAN-based models in benchmark performance, achieving superior FVD scores and efficiency. Additionally, we observe a direct positive correlation between the complexity of our designed model and the improvement in video quality, indicating the excellent scalability of Matten.
- Abstract(参考訳): 本稿では,映像生成のためのMamba-Attentionアーキテクチャを用いた最先端の潜伏拡散モデルであるMattenを紹介する。
最小の計算コストで、Mattenは局所的なビデオコンテンツモデリングとグローバルなビデオコンテンツモデリングのための双方向のMambaに空間的注意を払っている。
我々の総合的な実験的評価は、Mattenが現在のTransformerベースのモデルやGANベースのモデルとベンチマーク性能で競合し、優れたFVDスコアと効率を実現していることを示している。
さらに,設計モデルの複雑さと映像品質の向上との間には,直接的正の相関関係が見られ,Mattenの優れたスケーラビリティが示唆された。
関連論文リスト
- Efficient Audio-Visual Fusion for Video Classification [6.106447284305316]
本稿では,映像分類タスクにおける音声・視覚融合の新しい,効率的なアプローチであるAttend-Fusionを提案する。
提案手法は,コンパクトなモデルアーキテクチャを維持しながら,オーディオと視覚の両方のモダリティを活用するという課題に対処する。
論文 参考訳(メタデータ) (2024-11-08T14:47:28Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - VideoMamba: Spatio-Temporal Selective State Space Model [18.310796559944347]
VideoMambaは、ビデオ認識用に特別に設計された純粋なMambaアーキテクチャの斬新な適応である。
VideoMambaは、リソース効率だけでなく、ビデオの長距離依存性のキャプチャにも有効だ。
我々の研究は、ビデオ理解のための強力なツールとしてのVideoMambaの可能性を強調し、ビデオ分析における将来の研究のための、シンプルだが効果的なベースラインを提供する。
論文 参考訳(メタデータ) (2024-07-11T13:11:21Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - GoMAvatar: Efficient Animatable Human Modeling from Monocular Video Using Gaussians-on-Mesh [97.47701169876272]
GoMAvatarは、リアルタイム、メモリ効率、高品質な人間のモデリングのための新しいアプローチである。
GoMAvatarは、レンダリング品質において、現在のモノラルな人間のモデリングアルゴリズムにマッチするか、上回っている。
論文 参考訳(メタデータ) (2024-04-11T17:59:57Z) - Modular Blind Video Quality Assessment [33.657933680973194]
Blind Video Quality Assessment (BVQA) は、幅広いビデオベースのプラットフォームやサービスにおけるエンドユーザーの視聴体験を評価し改善する上で重要な役割を担っている。
本稿では,モジュール性向上のためのモジュール型BVQAモデルとトレーニング方法を提案する。
論文 参考訳(メタデータ) (2024-02-29T15:44:00Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Deep Video Matting via Spatio-Temporal Alignment and Aggregation [63.6870051909004]
新たな集計機能モジュール(STFAM)を用いた深層学習型ビデオマッチングフレームワークを提案する。
フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。
私達のフレームワークは従来のビデオ マットおよび深いイメージのマットの方法よりかなり優秀です。
論文 参考訳(メタデータ) (2021-04-22T17:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。