論文の概要: Efficient Diffusion Training via Min-SNR Weighting Strategy
- arxiv url: http://arxiv.org/abs/2303.09556v3
- Date: Mon, 11 Mar 2024 04:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:50:05.465641
- Title: Efficient Diffusion Training via Min-SNR Weighting Strategy
- Title(参考訳): Min-SNR重み付けによる効率的な拡散訓練
- Authors: Tiankai Hang, Shuyang Gu, Chen Li, Jianmin Bao, Dong Chen, Han Hu, Xin
Geng, Baining Guo
- Abstract要約: 拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。
本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。
さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
- 参考スコア(独自算出の注目度): 78.5801305960993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising diffusion models have been a mainstream approach for image
generation, however, training these models often suffers from slow convergence.
In this paper, we discovered that the slow convergence is partly due to
conflicting optimization directions between timesteps. To address this issue,
we treat the diffusion training as a multi-task learning problem, and introduce
a simple yet effective approach referred to as Min-SNR-$\gamma$. This method
adapts loss weights of timesteps based on clamped signal-to-noise ratios, which
effectively balances the conflicts among timesteps. Our results demonstrate a
significant improvement in converging speed, 3.4$\times$ faster than previous
weighting strategies. It is also more effective, achieving a new record FID
score of 2.06 on the ImageNet $256\times256$ benchmark using smaller
architectures than that employed in previous state-of-the-art. The code is
available at https://github.com/TiankaiHang/Min-SNR-Diffusion-Training.
- Abstract(参考訳): 減音拡散モデルは画像生成の主流の手法であるが、これらのモデルの訓練はしばしば収束の遅さに苦しむ。
本稿では,時間ステップ間の最適化方向の矛盾による収束が遅いことを発見した。
この問題に対処するため,拡散学習をマルチタスク学習問題として扱うとともに,Min-SNR-$\gamma$と呼ばれるシンプルなアプローチを導入する。
本手法は,信号対雑音比に基づいて時間ステップの損失重みを適応させ,時間ステップ間の競合を効果的にバランスさせる。
その結果,収束速度が大幅に向上し,従来の重み付け戦略よりも3.4$\times$が速くなった。
また、imagenetの256\times256$ベンチマークで、以前の最先端アーキテクチャよりも小さなアーキテクチャを使用して、新しい記録fidスコアを2.06で達成した方が、より効果的である。
コードはhttps://github.com/TiankaiHang/Min-SNR-Diffusion-Trainingで公開されている。
関連論文リスト
- Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。
提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。
我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文 参考訳(メタデータ) (2024-01-16T18:55:54Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Deep Multi-Threshold Spiking-UNet for Image Processing [51.88730892920031]
本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。
効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。
実験の結果,画像のセグメンテーションとデノイングにおいて,スパイキングUNetは非スパイキングと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-07-20T16:00:19Z) - Surrogate Lagrangian Relaxation: A Path To Retrain-free Deep Neural
Network Pruning [9.33753001494221]
ネットワークプルーニングは、ディープニューラルネットワークの計算コストとモデルサイズの削減に広く用いられている手法である。
本稿では,サロゲートラグランジアン緩和に基づく体系的な重み付け最適化手法を開発する。
論文 参考訳(メタデータ) (2023-04-08T22:48:30Z) - Loop Unrolled Shallow Equilibrium Regularizer (LUSER) -- A
Memory-Efficient Inverse Problem Solver [26.87738024952936]
逆問題では、潜在的に破損し、しばしば不適切な測定結果から、いくつかの基本的な関心のシグナルを再構築することを目的としている。
浅い平衡正規化器(L)を用いたLUアルゴリズムを提案する。
これらの暗黙のモデルは、より深い畳み込みネットワークと同じくらい表現力があるが、トレーニング中にはるかにメモリ効率が良い。
論文 参考訳(メタデータ) (2022-10-10T19:50:37Z) - Learning True Rate-Distortion-Optimization for End-To-End Image
Compression [59.816251613869376]
速度歪みの最適化は、従来の画像圧縮とビデオ圧縮の重要な部分である。
本稿では,RDO結果の低複雑さ推定をトレーニングに導入することにより,トレーニングの強化を図る。
我々は以前のRDONetモデルに比べてMS-SSIMで平均19.6%のレートセーブを実現し、従来のディープイメージコーダに比べて27.3%のレートセーブを実現した。
論文 参考訳(メタデータ) (2022-01-05T13:02:00Z) - Enabling Retrain-free Deep Neural Network Pruning using Surrogate
Lagrangian Relaxation [2.691929135895278]
サロゲート・ラグランジアン・リラクゼーション(SLR)に基づく体系的な軽量化最適化手法を開発。
SLRは、同じ精度で最先端技術よりも高い圧縮率を達成する。
再学習の予算が限られているため,本手法はモデル精度を迅速に回復する。
論文 参考訳(メタデータ) (2020-12-18T07:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。