Fugu-MT 論文翻訳(概要): SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces

論文の概要: SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces

arxiv url: http://arxiv.org/abs/2403.07711v1
Date: Tue, 12 Mar 2024 14:53:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 21:16:17.394195
Title: SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces
Title（参考訳）: SSMがビデオ拡散モデルを発表:構造化状態空間を用いた効率的なビデオ生成
Authors: Yuta Oshima, Shohei Taniguchi, Masahiro Suzuki, Yutaka Matsuo
Abstract要約: 映像生成のための近年の拡散モデルでは、時間的特徴を抽出するために注意層を主に利用している。我々は、より長いビデオシーケンスを生成するために状態空間モデル(SSM)を活用することを提案する。我々のSSMベースのモデルは、注目ベースのモデルと競合するFVDスコアを維持しながら、長いシーケンスでメモリ消費を大幅に削減することができる。
参考スコア（独自算出の注目度）: 22.10192935898433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Given the remarkable achievements in image generation through diffusion models, the research community has shown increasing interest in extending these models to video generation. Recent diffusion models for video generation have predominantly utilized attention layers to extract temporal features. However, attention layers are limited by their memory consumption, which increases quadratically with the length of the sequence. This limitation presents significant challenges when attempting to generate longer video sequences using diffusion models. To overcome this challenge, we propose leveraging state-space models (SSMs). SSMs have recently gained attention as viable alternatives due to their linear memory consumption relative to sequence length. In the experiments, we first evaluate our SSM-based model with UCF101, a standard benchmark of video generation. In addition, to investigate the potential of SSMs for longer video generation, we perform an experiment using the MineRL Navigate dataset, varying the number of frames to 64 and 150. In these settings, our SSM-based model can considerably save memory consumption for longer sequences, while maintaining competitive FVD scores to the attention-based models. Our codes are available at https://github.com/shim0114/SSM-Meets-Video-Diffusion-Models.
Abstract（参考訳）: 拡散モデルによる画像生成における顕著な成果を踏まえ、研究コミュニティはこれらのモデルをビデオ生成に拡張することへの関心が高まっている。近年,映像生成のための拡散モデルでは,注意層を用いて時間的特徴を抽出している。しかし、アテンション層はメモリ消費によって制限され、シーケンスの長さとともに二次的に増加する。この制限は拡散モデルを用いてより長いビデオシーケンスを生成しようとする際の大きな課題となる。この課題を克服するために、状態空間モデル(SSM)の活用を提案する。 SSMは、最近、シーケンス長に対する線形メモリ消費のために、有効な代替手段として注目されている。実験では,ビデオ生成の標準ベンチマークであるUCF101を用いて,まずSSMモデルを評価する。また,より長い映像生成のためのssmsの可能性を検討するために,ミネルナビゲーションデータセットを用いて,フレーム数を64および150に変化させる実験を行った。これらの設定では、我々のSSMベースのモデルは、注意ベースのモデルと競合するFVDスコアを維持しながら、長いシーケンスでメモリ消費を大幅に削減することができる。私たちのコードはhttps://github.com/shim0114/SSM-Meets-Video-Diffusion-Modelsで利用可能です。

関連論文リスト

Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文参考訳（メタデータ） (2025-05-26T16:12:41Z)
BIMBA: Selective-Scan Compression for Long-Range Video Question Answering [46.199493246921435]
長いビデオにおけるビデオ質問回答(VQA)は、関連する情報を抽出する上で重要な課題である。長大なビデオを扱うための効率的な状態空間モデルであるBIMBAを紹介する。
論文参考訳（メタデータ） (2025-03-12T17:57:32Z)
Pushing the Boundaries of State Space Models for Image and Video Generation [26.358592737557956]
我々は,現在までに最大規模の拡散SSM-Transformerハイブリッドモデル(5Bパラメータ)を構築している。以上の結果から,複雑なテキストプロンプトや時間的一貫した動画を高ダイナミックスで再現し,忠実な結果が得られることを示す。
論文参考訳（メタデータ） (2025-02-03T00:51:09Z)
Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文参考訳（メタデータ） (2024-11-29T04:12:13Z)
Treating Brain-inspired Memories as Priors for Diffusion Model to Forecast Multivariate Time Series [16.315066774520524]
人間の記憶機構からインスピレーションを得て、時間的パターンをよりよく捉えます。脳にインスパイアされた記憶はセマンティックメモリとエピソードメモリから構成される。脳にインスパイアされたメモリ拡張拡散モデルを提案する。
論文参考訳（メタデータ） (2024-09-27T07:09:40Z)
DyG-Mamba: Continuous State Space Modeling on Dynamic Graphs [59.434893231950205]
動的グラフ学習は、現実世界のシステムにおける進化の法則を明らかにすることを目的としている。動的グラフ学習のための新しい連続状態空間モデルDyG-Mambaを提案する。我々はDyG-Mambaがほとんどのデータセットで最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2024-08-13T15:21:46Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文参考訳（メタデータ） (2024-03-29T00:05:13Z)
S2DM: Sector-Shaped Diffusion Models for Video Generation [2.0270353391739637]
ビデオ生成のためのセクタ型拡散モデル(S2DM)を提案する。 S2DMは、同じ意味と本質的な特徴を共有する本質的な関連データ群を生成することができる。追加のトレーニングなしに、我々のモデルは、他の時間的条件と統合され、生成モデルは、既存の作業と同等のパフォーマンスを達成できることを示す。
論文参考訳（メタデータ） (2024-03-20T08:50:15Z)
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文参考訳（メタデータ） (2023-04-18T08:30:32Z)
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。 Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文参考訳（メタデータ） (2023-04-17T17:57:06Z)
Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。 PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文参考訳（メタデータ） (2023-02-15T14:22:34Z)
Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文参考訳（メタデータ） (2022-11-23T18:58:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。