論文の概要: MSC: Multi-Scale Spatio-Temporal Causal Attention for Autoregressive Video Diffusion
- arxiv url: http://arxiv.org/abs/2412.09828v1
- Date: Fri, 13 Dec 2024 03:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:59.388706
- Title: MSC: Multi-Scale Spatio-Temporal Causal Attention for Autoregressive Video Diffusion
- Title(参考訳): MSC: 自己回帰的ビデオ拡散のためのマルチスケール時空間因果注意
- Authors: Xunnong Xu, Mengying Cao,
- Abstract要約: これらの問題に対処するためのマルチスケール因果関係(MSC)フレームワークを提案する。
本研究では,空間次元の多重分解能と時間次元の高低周波数を導入し,効率的な注意計算を実現する。
理論的には、我々の手法は計算の複雑さを大幅に減らし、訓練の効率を高めることができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Diffusion transformers enable flexible generative modeling for video. However, it is still technically challenging and computationally expensive to generate high-resolution videos with rich semantics and complex motion. Similar to languages, video data are also auto-regressive by nature, so it is counter-intuitive to use attention mechanism with bi-directional dependency in the model. Here we propose a Multi-Scale Causal (MSC) framework to address these problems. Specifically, we introduce multiple resolutions in the spatial dimension and high-low frequencies in the temporal dimension to realize efficient attention calculation. Furthermore, attention blocks on multiple scales are combined in a controlled way to allow causal conditioning on noisy image frames for diffusion training, based on the idea that noise destroys information at different rates on different resolutions. We theoretically show that our approach can greatly reduce the computational complexity and enhance the efficiency of training. The causal attention diffusion framework can also be used for auto-regressive long video generation, without violating the natural order of frame sequences.
- Abstract(参考訳): 拡散変換器はフレキシブルなビデオ生成モデリングを可能にする。
しかし、リッチなセマンティクスと複雑な動きを持つ高解像度ビデオを生成することは、技術的には困難であり、計算コストも高い。
言語と同様に、ビデオデータも自然に自動回帰するので、モデルに双方向依存を持つ注意機構を使うのは直感的ではない。
本稿では,これらの問題に対処するためのMSC(Multi-Scale Causal)フレームワークを提案する。
具体的には、時間次元における空間次元と高低周波の多重分解能を導入し、効率的な注意計算を実現する。
さらに、ノイズが異なる解像度で異なる速度で情報を破壊するという考え方に基づいて、拡散訓練のためのノイズの多い画像フレームの因果条件付けを可能にするために、複数スケールの注意ブロックを制御的に組み合わせる。
理論的には、我々の手法は計算の複雑さを大幅に減らし、訓練の効率を高めることができる。
因果注意拡散フレームワークは、フレームシーケンスの自然な順序に違反することなく、自動回帰長ビデオ生成にも使用することができる。
関連論文リスト
- Multimodal Instruction Tuning with Hybrid State Space Models [25.921044010033267]
長いコンテキストは、多モーダルな大言語モデルの認識と理解能力を高めるために不可欠である。
本稿では,マルチモーダルアプリケーションにおける長時間のコンテキストを効率的に扱うために,ハイブリッドトランスフォーマー-MAMBAモデルを用いた新しい手法を提案する。
本モデルでは,高解像度画像と高フレーム映像の推論効率を現行モデルに比べて約4倍向上させる。
論文 参考訳(メタデータ) (2024-11-13T18:19:51Z) - Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models [56.691967706131]
我々は、フレームを2次元空間における連続関数と見なし、ビデオは異なるフレーム間の連続的なワープ変換の列と見なす。
この観点から,画像上でのみ関数空間拡散モデルを訓練し,時間的に相関した逆問題を解くことができる。
本手法により,ビデオ逆問題を解決するために,安定拡散XLのような最先端の潜伏拡散モデルを展開することができる。
論文 参考訳(メタデータ) (2024-10-21T16:19:34Z) - Noise Crystallization and Liquid Noise: Zero-shot Video Generation using Image Diffusion Models [6.408114351192012]
ビデオモデルは広範なトレーニングと計算資源を必要とし、高いコストと環境への影響をもたらす。
本稿では、画像拡散モデルを拡張して、細部を保ちながら連続的なアニメーションフレームを作成することによって、映像生成に新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-05T12:53:05Z) - Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation [36.098738197088124]
本研究では,遅延ビデオ生成を高速化する拡散再利用モードネットワークを提案する。
初期のデノナイジングステップの粗いきめのノイズは、連続するビデオフレーム間で高い動きの一貫性を示す。
Mo博士は、慎重に設計された軽量なフレーム間の動きを取り入れることで、これらの粗いノイズを次のフレームに伝播させる。
論文 参考訳(メタデータ) (2024-09-19T07:50:34Z) - Multi-Hierarchical Surrogate Learning for Structural Dynamical Crash
Simulations Using Graph Convolutional Neural Networks [5.582881461692378]
カルトフレームの一連のサロゲートモデルを構造的に生成する多階層フレームワークを提案する。
マルチスケール現象では、粗いサロゲート上でマクロスケールの特徴が捉えられ、ミクロスケール効果はより微細なサロゲートによって解決される。
我々は、粗い表現上でパラメータ依存の低次元潜在力学を学習するグラフ畳み込みニューラルネットワークに基づくサロゲートを訓練する。
論文 参考訳(メタデータ) (2024-02-14T15:22:59Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。