論文の概要: Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework
- arxiv url: http://arxiv.org/abs/2503.10704v1
- Date: Wed, 12 Mar 2025 15:32:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:07.795066
- Title: Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework
- Title(参考訳): 自動回帰ビデオ拡散モデルの誤り解析:統一フレームワーク
- Authors: Jing Wang, Fengzhuo Zhang, Xiaoli Li, Vincent Y. F. Tan, Tianyu Pang, Chao Du, Aixin Sun, Zhuoran Yang,
- Abstract要約: 様々な自動回帰ビデオ拡散モデル(ARVDM)は、リアルなロングフォームビデオの生成において顕著な成功を収めた。
我々はこれらのモデルに関する理論的基盤を開発し、既存のモデルの性能を改善するために洞察を利用する。
- 参考スコア(独自算出の注目度): 127.61297651993561
- License:
- Abstract: A variety of Auto-Regressive Video Diffusion Models (ARVDM) have achieved remarkable successes in generating realistic long-form videos. However, theoretical analyses of these models remain scant. In this work, we develop theoretical underpinnings for these models and use our insights to improve the performance of existing models. We first develop Meta-ARVDM, a unified framework of ARVDMs that subsumes most existing methods. Using Meta-ARVDM, we analyze the KL-divergence between the videos generated by Meta-ARVDM and the true videos. Our analysis uncovers two important phenomena inherent to ARVDM -- error accumulation and memory bottleneck. By deriving an information-theoretic impossibility result, we show that the memory bottleneck phenomenon cannot be avoided. To mitigate the memory bottleneck, we design various network structures to explicitly use more past frames. We also achieve a significantly improved trade-off between the mitigation of the memory bottleneck and the inference efficiency by compressing the frames. Experimental results on DMLab and Minecraft validate the efficacy of our methods. Our experiments also demonstrate a Pareto-frontier between the error accumulation and memory bottleneck across different methods.
- Abstract(参考訳): 様々な自動回帰ビデオ拡散モデル(ARVDM)は、リアルなロングフォームビデオの生成において顕著な成功を収めた。
しかし、これらのモデルに関する理論的分析はいまだに残っていない。
本研究では,これらのモデルに対する理論的基盤を構築し,既存のモデルの性能向上のための洞察を利用する。
ARVDMの統一化フレームワークであるMeta-ARVDMを開発した。
Meta-ARVDMを用いて、Meta-ARVDMが生成したビデオと真のビデオのKL分割を分析する。
ARVDMに固有の2つの重要な現象、すなわちエラーの蓄積とメモリボトルネックを明らかにする。
情報理論的不合理性の結果を導出することにより、メモリボトルネック現象を回避できないことを示す。
メモリボトルネックを軽減するために,過去のフレームを明示的に使用するために,様々なネットワーク構造を設計する。
また、フレームを圧縮することでメモリボトルネックの緩和と推論効率のトレードオフを大幅に改善する。
DMLabとMinecraftの実験結果から,本手法の有効性を検証した。
実験では,エラーの蓄積と異なるメソッド間のメモリボトルネックの間に,Pareto-frontierが存在することも実証した。
関連論文リスト
- ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing [66.66090399385304]
Ca2-VDMは、Causal生成とキャッシュ共有を備えた効率的な自己回帰VDMである。
因果生成のために一方向の特徴計算を導入し、前回の自己回帰ステップで条件付きフレームのキャッシュをプリ計算できるようにする。
キャッシュ共有では、巨大なキャッシュストレージコストを避けるために、すべてのデノナイズステップでキャッシュを共有する。
論文 参考訳(メタデータ) (2024-11-25T13:33:41Z) - Investigating Memorization in Video Diffusion Models [58.70363256771246]
画像生成やビデオ生成に広く用いられている拡散モデルは、推論中にトレーニングデータを記憶し再生するリスクという、重大な制限に直面している。
まず,VDM(Content memorization and Motion memorization)の2種類の記憶を現実的に定義する。
次に、VDMにおけるコンテンツと動きの記憶を別々に評価するために特別に設計された新しい指標を導入する。
論文 参考訳(メタデータ) (2024-10-29T02:34:06Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Model Inversion Attack via Dynamic Memory Learning [41.742953947551364]
Model Inversion (MI)攻撃は、ターゲットモデルからプライベートトレーニングデータを復元することを目的としている。
生成的敵モデルにおける近年の進歩は、特にMI攻撃に有効である。
本稿では、歴史的知識を活用するために、新しい動的メモリモデル反転攻撃(DMMIA)を提案する。
論文 参考訳(メタデータ) (2023-08-24T02:32:59Z) - Unsupervised Video Anomaly Detection with Diffusion Models Conditioned
on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。
提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。
提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文 参考訳(メタデータ) (2023-07-04T07:36:48Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Multi-level Memory-augmented Appearance-Motion Correspondence Framework
for Video Anomaly Detection [1.9511777443446219]
マルチレベルメモリ拡張外見対応フレームワークを提案する。
外観と動きの潜在的対応は、外見と動きのセマンティックスアライメントとセマンティックス代替トレーニングによって探索される。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2、CUHK Avenue、ShanghaiTechのデータセットで99.6%、93.8%、76.3%のAUCを達成した。
論文 参考訳(メタデータ) (2023-03-09T08:43:06Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Large-scale Robustness Analysis of Video Action Recognition Models [10.017292176162302]
我々は6つの最先端動作認識モデルの90種類の摂動に対する堅牢性について検討した。
1) トランスフォーマーベースモデルはCNNベースモデルと比較して一貫して堅牢であり、2) 事前トレーニングはCNNベースモデルよりもトランスフォーマーベースモデルのロバスト性を改善し、3) 研究されたモデルはすべて、SSv2以外のすべてのデータセットに対して時間的摂動に対して堅牢である。
論文 参考訳(メタデータ) (2022-07-04T13:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。