Fugu-MT 論文翻訳(概要): MSC: Multi-Scale Spatio-Temporal Causal Attention for Autoregressive Video Diffusion

論文の概要: MSC: Multi-Scale Spatio-Temporal Causal Attention for Autoregressive Video Diffusion

arxiv url: http://arxiv.org/abs/2412.09828v1
Date: Fri, 13 Dec 2024 03:39:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.82691
Title: MSC: Multi-Scale Spatio-Temporal Causal Attention for Autoregressive Video Diffusion
Title（参考訳）: MSC: 自己回帰的ビデオ拡散のためのマルチスケール時空間因果注意
Authors: Xunnong Xu, Mengying Cao,
Abstract要約: これらの問題に対処するためのマルチスケール因果関係(MSC)フレームワークを提案する。本研究では,空間次元の多重分解能と時間次元の高低周波数を導入し,効率的な注意計算を実現する。理論的には、我々の手法は計算の複雑さを大幅に減らし、訓練の効率を高めることができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion transformers enable flexible generative modeling for video. However, it is still technically challenging and computationally expensive to generate high-resolution videos with rich semantics and complex motion. Similar to languages, video data are also auto-regressive by nature, so it is counter-intuitive to use attention mechanism with bi-directional dependency in the model. Here we propose a Multi-Scale Causal (MSC) framework to address these problems. Specifically, we introduce multiple resolutions in the spatial dimension and high-low frequencies in the temporal dimension to realize efficient attention calculation. Furthermore, attention blocks on multiple scales are combined in a controlled way to allow causal conditioning on noisy image frames for diffusion training, based on the idea that noise destroys information at different rates on different resolutions. We theoretically show that our approach can greatly reduce the computational complexity and enhance the efficiency of training. The causal attention diffusion framework can also be used for auto-regressive long video generation, without violating the natural order of frame sequences.
Abstract（参考訳）: 拡散変換器はフレキシブルなビデオ生成モデリングを可能にする。しかし、リッチなセマンティクスと複雑な動きを持つ高解像度ビデオを生成することは、技術的には困難であり、計算コストも高い。言語と同様に、ビデオデータも自然に自動回帰するので、モデルに双方向依存を持つ注意機構を使うのは直感的ではない。本稿では,これらの問題に対処するためのMSC(Multi-Scale Causal)フレームワークを提案する。具体的には、時間次元における空間次元と高低周波の多重分解能を導入し、効率的な注意計算を実現する。さらに、ノイズが異なる解像度で異なる速度で情報を破壊するという考え方に基づいて、拡散訓練のためのノイズの多い画像フレームの因果条件付けを可能にするために、複数スケールの注意ブロックを制御的に組み合わせる。理論的には、我々の手法は計算の複雑さを大幅に減らし、訓練の効率を高めることができる。因果注意拡散フレームワークは、フレームシーケンスの自然な順序に違反することなく、自動回帰長ビデオ生成にも使用することができる。

関連論文リスト

Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文参考訳（メタデータ） (2025-04-30T03:57:28Z)
AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion [19.98565541640125]
自動回帰拡散(AR-Diffusion, Auto-Regressive Diffusion)は, フレキシブルビデオ生成のための自己回帰拡散モデルと拡散モデルの強みを組み合わせた新しいモデルである。自己回帰生成に触発されて、個々のフレームの腐敗タイムステップに非減少制約を組み込む。このセットアップは、時間的因果的注意とともに、時間的コヒーレンスを保ちながら、長さの異なる柔軟なビデオの生成を可能にする。
論文参考訳（メタデータ） (2025-03-10T15:05:59Z)
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
連続的な視覚生成には、フルシーケンスの拡散に基づくアプローチが必要である。本稿では,自己回帰的ブロックワイド条件拡散変換器ACDiTを提案する。本稿では,拡散目標を訓練しながら,視覚理解タスクにACDiTをシームレスに使用できることを実証する。
論文参考訳（メタデータ） (2024-12-10T18:13:20Z)
Multimodal Instruction Tuning with Hybrid State Space Models [25.921044010033267]
長いコンテキストは、多モーダルな大言語モデルの認識と理解能力を高めるために不可欠である。本稿では,マルチモーダルアプリケーションにおける長時間のコンテキストを効率的に扱うために,ハイブリッドトランスフォーマー-MAMBAモデルを用いた新しい手法を提案する。本モデルでは,高解像度画像と高フレーム映像の推論効率を現行モデルに比べて約4倍向上させる。
論文参考訳（メタデータ） (2024-11-13T18:19:51Z)
Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models [56.691967706131]
我々は、フレームを2次元空間における連続関数と見なし、ビデオは異なるフレーム間の連続的なワープ変換の列と見なす。この観点から,画像上でのみ関数空間拡散モデルを訓練し,時間的に相関した逆問題を解くことができる。本手法により,ビデオ逆問題を解決するために,安定拡散XLのような最先端の潜伏拡散モデルを展開することができる。
論文参考訳（メタデータ） (2024-10-21T16:19:34Z)
Noise Crystallization and Liquid Noise: Zero-shot Video Generation using Image Diffusion Models [6.408114351192012]
ビデオモデルは広範なトレーニングと計算資源を必要とし、高いコストと環境への影響をもたらす。本稿では、画像拡散モデルを拡張して、細部を保ちながら連続的なアニメーションフレームを作成することによって、映像生成に新たなアプローチを提案する。
論文参考訳（メタデータ） (2024-10-05T12:53:05Z)
Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation [36.098738197088124]
本研究では,遅延ビデオ生成を高速化する拡散再利用モードネットワークを提案する。初期のデノナイジングステップの粗いきめのノイズは、連続するビデオフレーム間で高い動きの一貫性を示す。 Mo博士は、慎重に設計された軽量なフレーム間の動きを取り入れることで、これらの粗いノイズを次のフレームに伝播させる。
論文参考訳（メタデータ） (2024-09-19T07:50:34Z)
DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba [18.06907326360215]
2つの同様の反復パターンの干渉によるモアレパターンは、画面上の画像やビデオのキャプチャ中に頻繁に観察される。本稿では,周波数アシスト型マンバを用いたアライメントレス生ビデオ復調ネットワークを提案する。提案するDemMambaはPSNRで1.3dBの最先端手法を超越し,良好な視覚体験を提供する。
論文参考訳（メタデータ） (2024-08-20T09:31:03Z)
Multi-Hierarchical Surrogate Learning for Structural Dynamical Crash Simulations Using Graph Convolutional Neural Networks [5.582881461692378]
カルトフレームの一連のサロゲートモデルを構造的に生成する多階層フレームワークを提案する。マルチスケール現象では、粗いサロゲート上でマクロスケールの特徴が捉えられ、ミクロスケール効果はより微細なサロゲートによって解決される。我々は、粗い表現上でパラメータ依存の低次元潜在力学を学習するグラフ畳み込みニューラルネットワークに基づくサロゲートを訓練する。
論文参考訳（メタデータ） (2024-02-14T15:22:59Z)
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文参考訳（メタデータ） (2023-12-01T15:24:38Z)
Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文参考訳（メタデータ） (2022-11-23T18:58:39Z)
Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文参考訳（メタデータ） (2022-04-08T03:37:39Z)
Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文参考訳（メタデータ） (2022-01-18T11:42:14Z)
Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文参考訳（メタデータ） (2021-11-27T05:35:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。