論文の概要: PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference
- arxiv url: http://arxiv.org/abs/2601.04792v1
- Date: Thu, 08 Jan 2026 10:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.154113
- Title: PyramidalWan: On Making Pretrained Video Model Pyramidal for Efficient Inference
- Title(参考訳): PyramidalWan: 効果的な推論のための事前訓練ビデオモデルピラミッド作成について
- Authors: Denis Korzhenkov, Adil Karjauv, Animesh Karnewar, Mohsen Ghafoorian, Amirhossein Habibian,
- Abstract要約: 本稿では,事前学習した拡散モデルを低コストな微調整によりピラミッド型に変換するパイプラインを提案する。
本研究では, ピラミッドモデルにおける段階蒸留の各種戦略について検討, 比較を行い, 推論効率をさらに高めることを目的とした。
- 参考スコア(独自算出の注目度): 16.7959283896177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently proposed pyramidal models decompose the conventional forward and backward diffusion processes into multiple stages operating at varying resolutions. These models handle inputs with higher noise levels at lower resolutions, while less noisy inputs are processed at higher resolutions. This hierarchical approach significantly reduces the computational cost of inference in multi-step denoising models. However, existing open-source pyramidal video models have been trained from scratch and tend to underperform compared to state-of-the-art systems in terms of visual plausibility. In this work, we present a pipeline that converts a pretrained diffusion model into a pyramidal one through low-cost finetuning, achieving this transformation without degradation in quality of output videos. Furthermore, we investigate and compare various strategies for step distillation within pyramidal models, aiming to further enhance the inference efficiency. Our results are available at https://qualcomm-ai-research.github.io/PyramidalWan.
- Abstract(参考訳): 最近提案されたピラミッドモデルでは、従来の前方および後方拡散過程を様々な解像度で動作させる複数の段階に分解する。
これらのモデルは低分解能で高ノイズレベルの入力を処理するが、低ノイズの入力は高分解能で処理される。
この階層的なアプローチは、多段階のデノナイジングモデルにおける推論の計算コストを大幅に削減する。
しかし、既存のオープンソースのピラミッドビデオモデルは、スクラッチから訓練されており、視覚的可視性の観点からは最先端のシステムに比べて性能が劣る傾向にある。
本研究では,事前学習した拡散モデルを低コストな微調整によりピラミッド状に変換し,出力ビデオの品質を劣化させることなくこの変換を実現するパイプラインを提案する。
さらに,ピラミッドモデルにおける段階蒸留の様々な戦略について検討・比較し,推論効率をさらに高めることを目的とした。
私たちの結果はhttps://qualcomm-ai-research.github.io/PyramidalWan.orgで公開されています。
関連論文リスト
- Fewer Denoising Steps or Cheaper Per-Step Inference: Towards Compute-Optimal Diffusion Model Deployment [14.097906894386066]
PostDiffは、トレーニング済みの拡散モデルを加速するためのトレーニング不要のフレームワークである。
我々はPostDiffが最先端拡散モデルの忠実性と効率のトレードオフを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2025-08-08T09:29:37Z) - OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates [39.746866725267516]
事前訓練された潜伏拡散モデルでは、画像圧縮が失われる可能性が強い。
我々はOSCARと呼ばれる複数のビットレートにまたがる1ステップ拡散を提案する。
実験により、OSCARは量的および視覚的品質の指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-22T00:14:12Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Optimizing for the Shortest Path in Denoising Diffusion Model [8.884907787678731]
最短経路拡散モデル(ShortDF)は、復調誤差の最小化を目的とした最短経路問題である。
複数の標準ベンチマークの実験により、ShortDFは拡散時間(またはステップ)を大幅に短縮することが示された。
この研究は、インタラクティブな拡散ベースのアプリケーションへの道を開き、高速なデータ生成の基礎を確立します。
論文 参考訳(メタデータ) (2025-03-05T08:47:36Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。