論文の概要: SSM Meets Video Diffusion Models: Efficient Long-Term Video Generation with Structured State Spaces
- arxiv url: http://arxiv.org/abs/2403.07711v4
- Date: Tue, 3 Sep 2024 09:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 03:42:07.505067
- Title: SSM Meets Video Diffusion Models: Efficient Long-Term Video Generation with Structured State Spaces
- Title(参考訳): SSMがビデオ拡散モデルを発表:構造化された状態空間を持つ効率的な長期ビデオ生成
- Authors: Yuta Oshima, Shohei Taniguchi, Masahiro Suzuki, Yutaka Matsuo,
- Abstract要約: 映像生成のための最近の拡散モデルでは、時間的特徴を抽出するために注意層を主に利用している。
この制限は拡散モデルを用いてより長いビデオシーケンスを生成する際に大きな課題をもたらす。
本研究では,状態空間モデル(SSM)を時間的特徴抽出器として活用することを提案する。
- 参考スコア(独自算出の注目度): 20.23192934634197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the remarkable achievements in image generation through diffusion models, the research community has shown increasing interest in extending these models to video generation. Recent diffusion models for video generation have predominantly utilized attention layers to extract temporal features. However, attention layers are limited by their computational costs, which increase quadratically with the sequence length. This limitation presents significant challenges when generating longer video sequences using diffusion models. To overcome this challenge, we propose leveraging state-space models (SSMs) as temporal feature extractors. SSMs (e.g., Mamba) have recently gained attention as promising alternatives due to their linear-time memory consumption relative to sequence length. In line with previous research suggesting that using bidirectional SSMs is effective for understanding spatial features in image generation, we found that bidirectionality is also beneficial for capturing temporal features in video data, rather than relying on traditional unidirectional SSMs. We conducted comprehensive evaluations on multiple long-term video datasets, such as MineRL Navigate, across various model sizes. For sequences up to 256 frames, SSM-based models require less memory to achieve the same FVD as attention-based models. Moreover, SSM-based models often deliver better performance with comparable GPU memory usage. Our codes are available at https://github.com/shim0114/SSM-Meets-Video-Diffusion-Models.
- Abstract(参考訳): 拡散モデルによる画像生成における顕著な成果を考えると、研究コミュニティはこれらのモデルをビデオ生成に拡張することへの関心が高まっている。
映像生成のための近年の拡散モデルでは、時間的特徴を抽出するために注意層を主に利用している。
しかし、アテンション層は計算コストによって制限され、シークエンスの長さで2次的に増加する。
この制限は拡散モデルを用いてより長いビデオシーケンスを生成する際に大きな課題をもたらす。
この課題を克服するために、時間的特徴抽出器として状態空間モデル(SSM)を活用することを提案する。
SSM(例えば、Mamba)は、最近、シーケンス長に対する線形時間メモリ消費のために、有望な代替手段として注目されている。
画像生成における空間的特徴の理解には,従来の一方向SSMを頼らずに,映像データの時間的特徴の抽出にも,双方向SSMが有効であることが示唆された。
我々は,MineRL Navigateなどの複数の長期ビデオデータセットについて,様々なモデルサイズで包括的評価を行った。
256フレームまでのシーケンスでは、注意ベースのモデルと同じFVDを達成するために、SSMベースのモデルは少ないメモリを必要とする。
さらに、SSMベースのモデルは、同等のGPUメモリ使用量でより良いパフォーマンスを提供することが多い。
私たちのコードはhttps://github.com/shim0114/SSM-Meets-Video-Diffusion-Modelsで利用可能です。
関連論文リスト
- Treating Brain-inspired Memories as Priors for Diffusion Model to Forecast Multivariate Time Series [16.315066774520524]
人間の記憶機構からインスピレーションを得て、時間的パターンをよりよく捉えます。
脳にインスパイアされた記憶はセマンティックメモリとエピソードメモリから構成される。
脳にインスパイアされたメモリ拡張拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-27T07:09:40Z) - DyG-Mamba: Continuous State Space Modeling on Dynamic Graphs [59.434893231950205]
動的グラフ学習は、現実世界のシステムにおける進化の法則を明らかにすることを目的としている。
動的グラフ学習のための新しい連続状態空間モデルDyG-Mambaを提案する。
我々はDyG-Mambaがほとんどのデータセットで最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-08-13T15:21:46Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - S2DM: Sector-Shaped Diffusion Models for Video Generation [2.0270353391739637]
ビデオ生成のためのセクタ型拡散モデル(S2DM)を提案する。
S2DMは、同じ意味と本質的な特徴を共有する本質的な関連データ群を生成することができる。
追加のトレーニングなしに、我々のモデルは、他の時間的条件と統合され、生成モデルは、既存の作業と同等のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2024-03-20T08:50:15Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。