論文の概要: IV-Mixed Sampler: Leveraging Image Diffusion Models for Enhanced Video Synthesis
- arxiv url: http://arxiv.org/abs/2410.04171v2
- Date: Tue, 8 Oct 2024 03:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 13:41:32.290463
- Title: IV-Mixed Sampler: Leveraging Image Diffusion Models for Enhanced Video Synthesis
- Title(参考訳): IV-Mixed Sampler:高機能ビデオ合成のための画像拡散モデルの活用
- Authors: Shitong Shao, Zikai Zhou, Lichen Bai, Haoyi Xiong, Zeke Xie,
- Abstract要約: IV-Mixed Samplerは、ビデオ拡散モデルのための新しいトレーニングフリーアルゴリズムである。
IDMを使用して、各ビデオフレームとVDMの品質を高め、サンプリングプロセス中のビデオの時間的コヒーレンスを確保する。
UCF-101-FVD, MSR-VTT-FVD, Chronomagic-Bench-150, Chronomagic-Bench-1649 の4つのベンチマークで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 22.79121512759783
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The multi-step sampling mechanism, a key feature of visual diffusion models, has significant potential to replicate the success of OpenAI's Strawberry in enhancing performance by increasing the inference computational cost. Sufficient prior studies have demonstrated that correctly scaling up computation in the sampling process can successfully lead to improved generation quality, enhanced image editing, and compositional generalization. While there have been rapid advancements in developing inference-heavy algorithms for improved image generation, relatively little work has explored inference scaling laws in video diffusion models (VDMs). Furthermore, existing research shows only minimal performance gains that are perceptible to the naked eye. To address this, we design a novel training-free algorithm IV-Mixed Sampler that leverages the strengths of image diffusion models (IDMs) to assist VDMs surpass their current capabilities. The core of IV-Mixed Sampler is to use IDMs to significantly enhance the quality of each video frame and VDMs ensure the temporal coherence of the video during the sampling process. Our experiments have demonstrated that IV-Mixed Sampler achieves state-of-the-art performance on 4 benchmarks including UCF-101-FVD, MSR-VTT-FVD, Chronomagic-Bench-150, and Chronomagic-Bench-1649. For example, the open-source Animatediff with IV-Mixed Sampler reduces the UMT-FVD score from 275.2 to 228.6, closing to 223.1 from the closed-source Pika-2.0.
- Abstract(参考訳): 視覚拡散モデルの重要な特徴である多段階サンプリング機構は、推論計算コストを増大させることで、OpenAIのStrawberryの成功を再現する大きな可能性を秘めている。
十分な事前研究により、サンプリングプロセスにおける計算の正しいスケールアップは、生成品質の向上、画像編集の強化、合成の一般化につながることが示されている。
画像生成を改善するための推論重み付けアルゴリズムの開発は急速に進んでいるが、ビデオ拡散モデル(VDM)における推論スケーリング法則についての研究は比較的少ない。
さらに、既存の研究では、肉眼で知覚される最小のパフォーマンス向上しか示されていない。
そこで我々は,画像拡散モデル(IDM)の強みを活用して,VDMが現在の能力を超えることを支援できる新たなトレーニングフリーアルゴリズムIV-Mixed Samplerを設計する。
IV-Mixed Samplerのコアは、ICMを使用して各ビデオフレームの品質を大幅に向上させることであり、VDMはサンプリング中のビデオの時間的コヒーレンスを保証する。
実験により, UCF-101-FVD, MSR-VTT-FVD, Chronomagic-Bench-150, Chronomagic-Bench-1649 の4つのベンチマークにおいて, IV-Mixed Sampler が最先端性能を達成することを示した。
例えば、IV-Mixed Samplerを使ったオープンソースのAnimatediffは、UTT-FVDのスコアを275.2から228.6に下げ、クローズドソースのPika-2.0から223.1に閉じる。
関連論文リスト
- PQD: Post-training Quantization for Efficient Diffusion Models [4.809939957401427]
拡散モデル(PQD)のための新しい学習後量子化法を提案する。
提案手法は,完全精度拡散モデルを直接8ビット,4ビットモデルに量子化することができる。
論文 参考訳(メタデータ) (2024-12-30T19:55:59Z) - TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。
提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。
ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文 参考訳(メタデータ) (2024-12-08T11:36:32Z) - Advancing Diffusion Models: Alias-Free Resampling and Enhanced Rotational Equivariance [0.0]
拡散モデルは、モデルによって引き起こされたアーティファクトと、画像の忠実性に制限された安定性によって、依然として挑戦されている。
拡散モデルのUNetアーキテクチャにエイリアスフリー再サンプリング層を統合することを提案する。
CIFAR-10, MNIST, MNIST-Mなどのベンチマークデータを用いた実験の結果, 画像品質が一貫した向上を示した。
論文 参考訳(メタデータ) (2024-11-14T04:23:28Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z) - Diffusion Glancing Transformer for Parallel Sequence to Sequence
Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。
DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文 参考訳(メタデータ) (2022-12-20T13:36:25Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Improved Vector Quantized Diffusion Models [34.23016989464389]
VQ拡散はテキスト-画像合成のための強力な生成モデルである。
テキスト入力で低品質のサンプルや弱い相関画像を生成することができる。
本稿では,VQ拡散の試料品質をさらに向上する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。