論文の概要: SSM Meets Video Diffusion Models: Efficient Video Generation with
Structured State Spaces
- arxiv url: http://arxiv.org/abs/2403.07711v1
- Date: Tue, 12 Mar 2024 14:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:16:17.394195
- Title: SSM Meets Video Diffusion Models: Efficient Video Generation with
Structured State Spaces
- Title(参考訳): SSMがビデオ拡散モデルを発表:構造化状態空間を用いた効率的なビデオ生成
- Authors: Yuta Oshima, Shohei Taniguchi, Masahiro Suzuki, Yutaka Matsuo
- Abstract要約: 映像生成のための近年の拡散モデルでは、時間的特徴を抽出するために注意層を主に利用している。
我々は、より長いビデオシーケンスを生成するために状態空間モデル(SSM)を活用することを提案する。
我々のSSMベースのモデルは、注目ベースのモデルと競合するFVDスコアを維持しながら、長いシーケンスでメモリ消費を大幅に削減することができる。
- 参考スコア(独自算出の注目度): 22.10192935898433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the remarkable achievements in image generation through diffusion
models, the research community has shown increasing interest in extending these
models to video generation. Recent diffusion models for video generation have
predominantly utilized attention layers to extract temporal features. However,
attention layers are limited by their memory consumption, which increases
quadratically with the length of the sequence. This limitation presents
significant challenges when attempting to generate longer video sequences using
diffusion models. To overcome this challenge, we propose leveraging state-space
models (SSMs). SSMs have recently gained attention as viable alternatives due
to their linear memory consumption relative to sequence length. In the
experiments, we first evaluate our SSM-based model with UCF101, a standard
benchmark of video generation. In addition, to investigate the potential of
SSMs for longer video generation, we perform an experiment using the MineRL
Navigate dataset, varying the number of frames to 64 and 150. In these
settings, our SSM-based model can considerably save memory consumption for
longer sequences, while maintaining competitive FVD scores to the
attention-based models. Our codes are available at
https://github.com/shim0114/SSM-Meets-Video-Diffusion-Models.
- Abstract(参考訳): 拡散モデルによる画像生成における顕著な成果を踏まえ、研究コミュニティはこれらのモデルをビデオ生成に拡張することへの関心が高まっている。
近年,映像生成のための拡散モデルでは,注意層を用いて時間的特徴を抽出している。
しかし、アテンション層はメモリ消費によって制限され、シーケンスの長さとともに二次的に増加する。
この制限は拡散モデルを用いてより長いビデオシーケンスを生成しようとする際の大きな課題となる。
この課題を克服するために、状態空間モデル(SSM)の活用を提案する。
SSMは、最近、シーケンス長に対する線形メモリ消費のために、有効な代替手段として注目されている。
実験では,ビデオ生成の標準ベンチマークであるUCF101を用いて,まずSSMモデルを評価する。
また,より長い映像生成のためのssmsの可能性を検討するために,ミネルナビゲーションデータセットを用いて,フレーム数を64および150に変化させる実験を行った。
これらの設定では、我々のSSMベースのモデルは、注意ベースのモデルと競合するFVDスコアを維持しながら、長いシーケンスでメモリ消費を大幅に削減することができる。
私たちのコードはhttps://github.com/shim0114/SSM-Meets-Video-Diffusion-Modelsで利用可能です。
関連論文リスト
- DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba [18.06907326360215]
周波数アシスト時間型マンバ(DemMamba)を用いたアライメントレスRawビデオ復調ネットワークを提案する。
提案したMoiMambaは1.3dBの最先端アプローチを超越し、優れた視覚体験を提供する。
論文 参考訳(メタデータ) (2024-08-20T09:31:03Z) - DyG-Mamba: Continuous State Space Modeling on Dynamic Graphs [59.434893231950205]
動的グラフ学習は、現実世界のシステムにおける進化の法則を明らかにすることを目的としている。
動的グラフ学習のための新しい連続状態空間モデルDyG-Mambaを提案する。
我々はDyG-Mambaがほとんどのデータセットで最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-08-13T15:21:46Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - S2DM: Sector-Shaped Diffusion Models for Video Generation [2.0270353391739637]
ビデオ生成のためのセクタ型拡散モデル(S2DM)を提案する。
S2DMは、同じ意味と本質的な特徴を共有する本質的な関連データ群を生成することができる。
追加のトレーニングなしに、我々のモデルは、他の時間的条件と統合され、生成モデルは、既存の作業と同等のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2024-03-20T08:50:15Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。