論文の概要: SSM Meets Video Diffusion Models: Efficient Long-Term Video Generation with Structured State Spaces
- arxiv url: http://arxiv.org/abs/2403.07711v4
- Date: Tue, 3 Sep 2024 09:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 03:42:07.505067
- Title: SSM Meets Video Diffusion Models: Efficient Long-Term Video Generation with Structured State Spaces
- Title(参考訳): SSMがビデオ拡散モデルを発表:構造化された状態空間を持つ効率的な長期ビデオ生成
- Authors: Yuta Oshima, Shohei Taniguchi, Masahiro Suzuki, Yutaka Matsuo,
- Abstract要約: 映像生成のための最近の拡散モデルでは、時間的特徴を抽出するために注意層を主に利用している。
この制限は拡散モデルを用いてより長いビデオシーケンスを生成する際に大きな課題をもたらす。
本研究では,状態空間モデル(SSM)を時間的特徴抽出器として活用することを提案する。
- 参考スコア(独自算出の注目度): 20.23192934634197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the remarkable achievements in image generation through diffusion models, the research community has shown increasing interest in extending these models to video generation. Recent diffusion models for video generation have predominantly utilized attention layers to extract temporal features. However, attention layers are limited by their computational costs, which increase quadratically with the sequence length. This limitation presents significant challenges when generating longer video sequences using diffusion models. To overcome this challenge, we propose leveraging state-space models (SSMs) as temporal feature extractors. SSMs (e.g., Mamba) have recently gained attention as promising alternatives due to their linear-time memory consumption relative to sequence length. In line with previous research suggesting that using bidirectional SSMs is effective for understanding spatial features in image generation, we found that bidirectionality is also beneficial for capturing temporal features in video data, rather than relying on traditional unidirectional SSMs. We conducted comprehensive evaluations on multiple long-term video datasets, such as MineRL Navigate, across various model sizes. For sequences up to 256 frames, SSM-based models require less memory to achieve the same FVD as attention-based models. Moreover, SSM-based models often deliver better performance with comparable GPU memory usage. Our codes are available at https://github.com/shim0114/SSM-Meets-Video-Diffusion-Models.
- Abstract(参考訳): 拡散モデルによる画像生成における顕著な成果を考えると、研究コミュニティはこれらのモデルをビデオ生成に拡張することへの関心が高まっている。
映像生成のための近年の拡散モデルでは、時間的特徴を抽出するために注意層を主に利用している。
しかし、アテンション層は計算コストによって制限され、シークエンスの長さで2次的に増加する。
この制限は拡散モデルを用いてより長いビデオシーケンスを生成する際に大きな課題をもたらす。
この課題を克服するために、時間的特徴抽出器として状態空間モデル(SSM)を活用することを提案する。
SSM(例えば、Mamba)は、最近、シーケンス長に対する線形時間メモリ消費のために、有望な代替手段として注目されている。
画像生成における空間的特徴の理解には,従来の一方向SSMを頼らずに,映像データの時間的特徴の抽出にも,双方向SSMが有効であることが示唆された。
我々は,MineRL Navigateなどの複数の長期ビデオデータセットについて,様々なモデルサイズで包括的評価を行った。
256フレームまでのシーケンスでは、注意ベースのモデルと同じFVDを達成するために、SSMベースのモデルは少ないメモリを必要とする。
さらに、SSMベースのモデルは、同等のGPUメモリ使用量でより良いパフォーマンスを提供することが多い。
私たちのコードはhttps://github.com/shim0114/SSM-Meets-Video-Diffusion-Modelsで利用可能です。
関連論文リスト
- SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z) - Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。
CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。
我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文 参考訳(メタデータ) (2024-03-21T05:48:48Z) - LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。
LLM-grounded Video Diffusion (LVD)を紹介する。
以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。