論文の概要: Pushing the Boundaries of State Space Models for Image and Video Generation
- arxiv url: http://arxiv.org/abs/2502.00972v1
- Date: Mon, 03 Feb 2025 00:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:02:22.430997
- Title: Pushing the Boundaries of State Space Models for Image and Video Generation
- Title(参考訳): 画像・映像生成のための状態空間モデルの境界を押し上げる
- Authors: Yicong Hong, Long Mai, Yuan Yao, Feng Liu,
- Abstract要約: 我々は,現在までに最大規模の拡散SSM-Transformerハイブリッドモデル(5Bパラメータ)を構築している。
以上の結果から,複雑なテキストプロンプトや時間的一貫した動画を高ダイナミックスで再現し,忠実な結果が得られることを示す。
- 参考スコア(独自算出の注目度): 26.358592737557956
- License:
- Abstract: While Transformers have become the dominant architecture for visual generation, linear attention models, such as the state-space models (SSM), are increasingly recognized for their efficiency in processing long visual sequences. However, the essential efficiency of these models comes from formulating a limited recurrent state, enforcing causality among tokens that are prone to inconsistent modeling of N-dimensional visual data, leaving questions on their capacity to generate long non-causal sequences. In this paper, we explore the boundary of SSM on image and video generation by building the largest-scale diffusion SSM-Transformer hybrid model to date (5B parameters) based on the sub-quadratic bi-directional Hydra and self-attention, and generate up to 2K images and 360p 8 seconds (16 FPS) videos. Our results demonstrate that the model can produce faithful results aligned with complex text prompts and temporal consistent videos with high dynamics, suggesting the great potential of using SSMs for visual generation tasks.
- Abstract(参考訳): トランスフォーマーは、視覚生成において支配的なアーキテクチャとなっているが、状態空間モデル(SSM)のような線形アテンションモデルは、長い視覚的シーケンスの処理において、その効率性をますます認識している。
しかし、これらのモデルの本質的な効率性は、限られたリカレント状態を定式化し、N次元の視覚データの一貫性のないモデリングをしがちなトークン間の因果関係を強制することであり、長い非因果配列を生成する能力に疑問が残る。
本稿では,2次2方向ハイドラと自己アテンションに基づいて,これまでで最大規模の拡散SSM-Transformerハイブリッドモデル(5Bパラメータ)を構築し,最大2K画像と360p8秒ビデオを生成することにより,画像生成と映像生成におけるSSMの境界について検討する。
以上の結果から,複雑なテキストプロンプトと高ダイナミックな時間的一貫したビデオに整合した忠実な結果が得られることが示唆された。
関連論文リスト
- CascadeV: An Implementation of Wurstchen Architecture for Video Generation [4.086317089863318]
本稿では,最先端の2K解像度ビデオを生成することができるLDM(Latent diffusion model)を提案する。
実験により, 高い圧縮比を達成でき, 高品質ビデオ生成に伴う計算課題を大幅に削減できることが示された。
我々のモデルは既存のT2Vモデルとカスケードすることができ、理論的には、微調整なしで4$times$の解像度やフレームを毎秒増加させることができる。
論文 参考訳(メタデータ) (2025-01-28T01:14:24Z) - Four-Plane Factorized Video Autoencoders [44.00676320678128]
本稿では,入力サイズと直交的に成長する4平面の因数分解潜在空間にデータを投影するオートエンコーダを提案する。
提案した4面ラテント空間は高忠実度再構成に必要なリッチな表現を保っていることを示す。
論文 参考訳(メタデータ) (2024-12-05T18:58:17Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - S2DM: Sector-Shaped Diffusion Models for Video Generation [2.0270353391739637]
ビデオ生成のためのセクタ型拡散モデル(S2DM)を提案する。
S2DMは、同じ意味と本質的な特徴を共有する本質的な関連データ群を生成することができる。
追加のトレーニングなしに、我々のモデルは、他の時間的条件と統合され、生成モデルは、既存の作業と同等のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2024-03-20T08:50:15Z) - SSM Meets Video Diffusion Models: Efficient Long-Term Video Generation with Structured State Spaces [20.23192934634197]
映像生成のための最近の拡散モデルでは、時間的特徴を抽出するために注意層を主に利用している。
この制限は拡散モデルを用いてより長いビデオシーケンスを生成する際に大きな課題をもたらす。
本研究では,状態空間モデル(SSM)を時間的特徴抽出器として活用することを提案する。
論文 参考訳(メタデータ) (2024-03-12T14:53:56Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。