論文の概要: Efficient Diffusion Training via Min-SNR Weighting Strategy
- arxiv url: http://arxiv.org/abs/2303.09556v1
- Date: Thu, 16 Mar 2023 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:10:40.658089
- Title: Efficient Diffusion Training via Min-SNR Weighting Strategy
- Title(参考訳): Min-SNR重み付けによる効率的な拡散訓練
- Authors: Tiankai Hang, Shuyang Gu, Chen Li, Jianmin Bao, Dong Chen, Han Hu, Xin
Geng, Baining Guo
- Abstract要約: 拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。
本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。
さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
- 参考スコア(独自算出の注目度): 56.32441968088054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising diffusion models have been a mainstream approach for image
generation, however, training these models often suffers from slow convergence.
In this paper, we discovered that the slow convergence is partly due to
conflicting optimization directions between timesteps. To address this issue,
we treat the diffusion training as a multi-task learning problem, and introduce
a simple yet effective approach referred to as Min-SNR-$\gamma$. This method
adapts loss weights of timesteps based on clamped signal-to-noise ratios, which
effectively balances the conflicts among timesteps. Our results demonstrate a
significant improvement in converging speed, 3.4$\times$ faster than previous
weighting strategies. It is also more effective, achieving a new record FID
score of 2.06 on the ImageNet $256\times256$ benchmark using smaller
architectures than that employed in previous state-of-the-art.
- Abstract(参考訳): 減音拡散モデルは画像生成の主流の手法であるが、これらのモデルの訓練はしばしば収束の遅さに苦しむ。
本稿では,時間ステップ間の最適化方向の矛盾による収束が遅いことを発見した。
この問題に対処するため,拡散学習をマルチタスク学習問題として扱うとともに,Min-SNR-$\gamma$と呼ばれるシンプルなアプローチを導入する。
本手法は,信号対雑音比に基づいて時間ステップの損失重みを適応させ,時間ステップ間の競合を効果的にバランスさせる。
その結果,収束速度が大幅に向上し,従来の重み付け戦略よりも3.4$\times$が速くなった。
また、imagenetの256\times256$ベンチマークで、以前の最先端アーキテクチャよりも小さなアーキテクチャを使用して、新しい記録fidスコアを2.06で達成した方が、より効果的である。
関連論文リスト
- Loop Unrolled Shallow Equilibrium Regularizer (LUSER) -- A
Memory-Efficient Inverse Problem Solver [26.87738024952936]
逆問題では、潜在的に破損し、しばしば不適切な測定結果から、いくつかの基本的な関心のシグナルを再構築することを目的としている。
浅い平衡正規化器(L)を用いたLUアルゴリズムを提案する。
これらの暗黙のモデルは、より深い畳み込みネットワークと同じくらい表現力があるが、トレーニング中にはるかにメモリ効率が良い。
論文 参考訳(メタデータ) (2022-10-10T19:50:37Z) - Residual Local Feature Network for Efficient Super-Resolution [20.62809970985125]
本研究では,Residual Local Feature Network (RLFN)を提案する。
主なアイデアは、3つの畳み込みレイヤを局所的な特徴学習に使用して、機能の集約を単純化することだ。
さらに,NTIRE 2022の高効率超解像問題において,第1位を獲得した。
論文 参考訳(メタデータ) (2022-05-16T08:46:34Z) - Federated Progressive Sparsification (Purge, Merge, Tune)+ [15.08232397899507]
FedSparsifyは、プログレッシブ・ウェイト・マグニチュード・プルーニングに基づくスパーシフィケーション戦略である。
我々は,FedSparsifyが高空間性と学習性能の両方のサブネットワークを学習できることを実験的に示す。
論文 参考訳(メタデータ) (2022-04-26T16:45:53Z) - Learning True Rate-Distortion-Optimization for End-To-End Image
Compression [59.816251613869376]
速度歪みの最適化は、従来の画像圧縮とビデオ圧縮の重要な部分である。
本稿では,RDO結果の低複雑さ推定をトレーニングに導入することにより,トレーニングの強化を図る。
我々は以前のRDONetモデルに比べてMS-SSIMで平均19.6%のレートセーブを実現し、従来のディープイメージコーダに比べて27.3%のレートセーブを実現した。
論文 参考訳(メタデータ) (2022-01-05T13:02:00Z) - What Hinders Perceptual Quality of PSNR-oriented Methods? [61.648259566212424]
本稿では,高頻度拡張モジュールと空間コントラスト学習モジュールを組み合わせることで,COO問題と低周波傾向の影響を低減することを提案する。
実験結果から、DCLossを複数の正規SRモデルに適用する際の効率と有効性を示した。
論文 参考訳(メタデータ) (2022-01-04T08:30:09Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Enabling Retrain-free Deep Neural Network Pruning using Surrogate
Lagrangian Relaxation [2.691929135895278]
サロゲート・ラグランジアン・リラクゼーション(SLR)に基づく体系的な軽量化最適化手法を開発。
SLRは、同じ精度で最先端技術よりも高い圧縮率を達成する。
再学習の予算が限られているため,本手法はモデル精度を迅速に回復する。
論文 参考訳(メタデータ) (2020-12-18T07:17:30Z) - Efficient Robust Training via Backward Smoothing [125.91185167854262]
敵の訓練は敵の例に対抗して最も効果的な戦略である。
トレーニングの各ステップにおける反復的な敵攻撃により、高い計算コストに悩まされる。
近年の研究では、単一段階攻撃を行うことで、高速な対人訓練が可能であることが示されている。
論文 参考訳(メタデータ) (2020-10-03T04:37:33Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。