論文の概要: Lightweight Diffusion Models with Distillation-Based Block Neural
Architecture Search
- arxiv url: http://arxiv.org/abs/2311.04950v2
- Date: Wed, 15 Nov 2023 07:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 20:35:47.300934
- Title: Lightweight Diffusion Models with Distillation-Based Block Neural
Architecture Search
- Title(参考訳): 蒸留に基づくブロックニューラルアーキテクチャ探索による軽量拡散モデル
- Authors: Siao Tang, Xin Wang, Hong Chen, Chaoyu Guan, Yansong Tang, Wenwu zhu
- Abstract要約: 拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(NAS)により拡散モデルの構造的冗長性を自動的に除去することを提案する。
事前訓練を受けた教師がより多い場合、DiffNASを利用して、教師よりもパフォーマンスが良い最小限のアーキテクチャを探索する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
- 参考スコア(独自算出の注目度): 55.41583104734349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have recently shown remarkable generation ability, achieving
state-of-the-art performance in many tasks. However, the high computational
cost is still a troubling problem for diffusion models. To tackle this problem,
we propose to automatically remove the structural redundancy in diffusion
models with our proposed Diffusion Distillation-based Block-wise Neural
Architecture Search (DiffNAS). Specifically, given a larger pretrained teacher,
we leverage DiffNAS to search for the smallest architecture which can achieve
on-par or even better performance than the teacher. Considering current
diffusion models are based on UNet which naturally has a block-wise structure,
we perform neural architecture search independently in each block, which
largely reduces the search space. Different from previous block-wise NAS
methods, DiffNAS contains a block-wise local search strategy and a retraining
strategy with a joint dynamic loss. Concretely, during the search process, we
block-wisely select the best subnet to avoid the unfairness brought by the
global search strategy used in previous works. When retraining the searched
architecture, we adopt a dynamic joint loss to maintain the consistency between
supernet training and subnet retraining, which also provides informative
objectives for each block and shortens the paths of gradient propagation. We
demonstrate this joint loss can effectively improve model performance. We also
prove the necessity of the dynamic adjustment of this loss. The experiments
show that our method can achieve significant computational reduction,
especially on latent diffusion models with about 50\% MACs and Parameter
reduction.
- Abstract(参考訳): 拡散モデルは近年顕著な生成能力を示し、多くのタスクで最先端のパフォーマンスを実現している。
しかし、高い計算コストは拡散モデルにとっていまだに厄介な問題である。
そこで本研究では,拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(DiffNAS)を用いて,拡散モデルの構造的冗長性を自動的に除去する手法を提案する。
具体的には、事前訓練を受けた教師が大きくなると、DiffNASを利用して、教師よりもパフォーマンスが良い最小のアーキテクチャを探索する。
現在の拡散モデルは自然にブロック単位の構造を持つUNetに基づいており、各ブロックで独立してニューラルネットワークサーチを行い、探索空間を大幅に削減する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
具体的には,検索過程において,従来のグローバル検索戦略がもたらす不公平さを回避するために,最適なサブネットをブロックワイズに選択する。
探索されたアーキテクチャを再トレーニングする場合,スーパーネットトレーニングとサブネットリトレーニングの整合性を維持するために動的継手損失を採用し,各ブロックに対する情報的目的も提供し,勾配伝播の経路を短縮する。
この結合損失がモデル性能を効果的に向上することを示す。
また,この損失の動的調整の必要性も証明する。
実験の結果,提案手法は,約50 % MAC の潜在拡散モデルとパラメータ還元で,計算量を大幅に削減できることがわかった。
関連論文リスト
- Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Depth-agnostic Single Image Dehazing [12.51359372069387]
本研究では, 深度に依存しないデータセット(DA-HAZE)を生成することで, ヘイズ密度とシーン深度の関係を分離する, 単純かつ斬新な合成法を提案する。
実験によると、DA-HAZEでトレーニングされたモデルは、SOTSとDA-SOTSの相違が少なく、実世界のベンチマークで大幅に改善されている。
我々は、専用に設計されたブロックが組み込まれているデハジングのために、U-Netベースのアーキテクチャを再考する。
論文 参考訳(メタデータ) (2024-01-14T06:33:11Z) - MGAS: Multi-Granularity Architecture Search for Trade-Off Between Model
Effectiveness and Efficiency [10.641875933652647]
我々は,多粒度アーキテクチャサーチ(MGAS)を導入し,効率的かつ効率的なニューラルネットワークを探索する。
各粒度レベル固有の離散化関数を学習し、進化したアーキテクチャに従って単位残率を適応的に決定する。
CIFAR-10、CIFAR-100、ImageNetの大規模な実験により、MGASはモデル性能とモデルサイズとのトレードオフを改善するために、他の最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-23T16:32:18Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - $\beta$-DARTS: Beta-Decay Regularization for Differentiable Architecture
Search [85.84110365657455]
本研究では,DARTSに基づくNAS探索過程を正規化するために,ベータデカイと呼ばれるシンプルだが効率的な正規化手法を提案する。
NAS-Bench-201の実験結果から,提案手法は探索過程の安定化に有効であり,探索されたネットワークを異なるデータセット間で転送しやすくする。
論文 参考訳(メタデータ) (2022-03-03T11:47:14Z) - D-DARTS: Distributed Differentiable Architecture Search [75.12821786565318]
微分可能なArchiTecture Search(DARTS)は、最も流行しているニューラルネットワークサーチ(NAS)の1つである。
セルレベルで複数のニューラルネットワークをネストすることでこの問題に対処する新しいソリューションD-DARTSを提案する。
論文 参考訳(メタデータ) (2021-08-20T09:07:01Z) - SpaceNet: Make Free Space For Continual Learning [15.914199054779438]
本研究では,クラスインクリメンタル学習シナリオのための新しいアーキテクチャベースのSpaceNetを提案する。
SpaceNetは、複数のニューロンで各タスクのスパース接続を圧縮する適応的な方法で、スクラッチから深層ニューラルネットワークを訓練する。
実験により,従来のタスクを忘れることに対する提案手法のロバストさと,モデルが利用可能な容量を利用する場合のSpaceNetの効率性を示す。
論文 参考訳(メタデータ) (2020-07-15T11:21:31Z) - DrNAS: Dirichlet Neural Architecture Search [88.56953713817545]
ディリクレ分布をモデルとした連続緩和型混合重みをランダム変数として扱う。
最近開発されたパスワイズ微分により、ディリクレパラメータは勾配に基づく一般化で容易に最適化できる。
微分可能なNASの大きなメモリ消費を軽減するために, 単純かつ効果的な進行学習方式を提案する。
論文 参考訳(メタデータ) (2020-06-18T08:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。