論文の概要: TPDiff: Temporal Pyramid Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2503.09566v1
- Date: Wed, 12 Mar 2025 17:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:38:55.610789
- Title: TPDiff: Temporal Pyramid Video Diffusion Model
- Title(参考訳): TPDiff: 時間的ピラミッドビデオ拡散モデル
- Authors: Lingmin Ran, Mike Zheng Shou,
- Abstract要約: トレーニングと推論効率を向上させる統合フレームワークであるPDiffを提案する。
拡散をいくつかの段階に分割することで,拡散過程に沿ってフレームレートを徐々に向上させる。
整列データと雑音下での拡散の分配された確率流常微分方程式(ODE)を解くことにより、我々の訓練戦略は様々な拡散形式に適用できる。
- 参考スコア(独自算出の注目度): 16.48006100084994
- License:
- Abstract: The development of video diffusion models unveils a significant challenge: the substantial computational demands. To mitigate this challenge, we note that the reverse process of diffusion exhibits an inherent entropy-reducing nature. Given the inter-frame redundancy in video modality, maintaining full frame rates in high-entropy stages is unnecessary. Based on this insight, we propose TPDiff, a unified framework to enhance training and inference efficiency. By dividing diffusion into several stages, our framework progressively increases frame rate along the diffusion process with only the last stage operating on full frame rate, thereby optimizing computational efficiency. To train the multi-stage diffusion model, we introduce a dedicated training framework: stage-wise diffusion. By solving the partitioned probability flow ordinary differential equations (ODE) of diffusion under aligned data and noise, our training strategy is applicable to various diffusion forms and further enhances training efficiency. Comprehensive experimental evaluations validate the generality of our method, demonstrating 50% reduction in training cost and 1.5x improvement in inference efficiency.
- Abstract(参考訳): ビデオ拡散モデルの開発は、かなりの計算要求という大きな課題を浮き彫りにしている。
この課題を軽減するために、拡散の逆過程は本質的にエントロピーを還元する性質を示すことに留意する。
ビデオモダリティにおけるフレーム間の冗長性を考えると、高エントロピー段階におけるフルフレームレートを維持することは不要である。
この知見に基づいて,トレーニングと推論効率を向上させる統合フレームワークであるPDiffを提案する。
拡散を複数の段階に分割することにより, 拡散過程に沿ったフレームレートを段階的に向上させ, 計算効率を最適化する。
マルチステージ拡散モデルのトレーニングには,ステージワイド拡散という専用トレーニングフレームワークを導入する。
整列データと雑音下での拡散の分配された確率流常微分方程式(ODE)を解くことにより、トレーニング戦略は様々な拡散形態に適用でき、さらに訓練効率を高めることができる。
総合的な実験により,提案手法の汎用性を検証し,トレーニングコストの50%削減と推論効率の1.5倍の改善を実証した。
関連論文リスト
- Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。
提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。
ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文 参考訳(メタデータ) (2024-12-08T11:36:32Z) - Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [36.65594293655289]
DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T12:16:11Z) - A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model Training [53.93563224892207]
そこで本研究では,時間ステップの近さをベースとして,拡散モデル学習のための新しい高速化手法を提案する。
プラグアンドプレイでアーキテクチャに依存しないアプローチとして、SpeeDは、さまざまな拡散アーキテクチャ、データセット、タスクにわたる3回のアクセラレーションを一貫して達成している。
論文 参考訳(メタデータ) (2024-05-27T17:51:36Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Non-Denoising Forward-Time Diffusions [4.831663144935879]
拡散確率モデルの提案に共通する時間反転論証は不要であることを示す。
拡散ブリッジを適切に混合することにより,所望のデータ分布をターゲットとした拡散過程を得る。
我々は、我々の時間反転アプローチに対応するドリフト調整の統一的なビューを開発する。
論文 参考訳(メタデータ) (2023-12-22T10:26:31Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Fast Diffusion Model [122.36693015093041]
拡散モデル(DM)は、複雑なデータ分布を捉える能力を持つ様々な分野に採用されている。
本稿では,DM最適化の観点から,高速拡散モデル (FDM) を提案する。
論文 参考訳(メタデータ) (2023-06-12T09:38:04Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。