論文の概要: The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling
- arxiv url: http://arxiv.org/abs/2402.15170v1
- Date: Fri, 23 Feb 2024 08:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:21:47.208554
- Title: The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling
- Title(参考訳): 拡散サンプリングにおけるスキップチューニングのサプライズ効果
- Authors: Jiajun Ma, Shuchen Xue, Tianyang Hu, Wenjia Wang, Zhaoqiang Liu,
Zhenguo Li, Zhi-Ming Ma, Kenji Kawaguchi
- Abstract要約: Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。
ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。
Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
- 参考スコア(独自算出の注目度): 78.6155095947769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the incorporation of the UNet architecture, diffusion probabilistic
models have become a dominant force in image generation tasks. One key design
in UNet is the skip connections between the encoder and decoder blocks.
Although skip connections have been shown to improve training stability and
model performance, we reveal that such shortcuts can be a limiting factor for
the complexity of the transformation. As the sampling steps decrease, the
generation process and the role of the UNet get closer to the push-forward
transformations from Gaussian distribution to the target, posing a challenge
for the network's complexity. To address this challenge, we propose
Skip-Tuning, a simple yet surprisingly effective training-free tuning method on
the skip connections. Our method can achieve 100% FID improvement for
pretrained EDM on ImageNet 64 with only 19 NFEs (1.75), breaking the limit of
ODE samplers regardless of sampling steps. Surprisingly, the improvement
persists when we increase the number of sampling steps and can even surpass the
best result from EDM-2 (1.58) with only 39 NFEs (1.57). Comprehensive
exploratory experiments are conducted to shed light on the surprising
effectiveness. We observe that while Skip-Tuning increases the score-matching
losses in the pixel space, the losses in the feature space are reduced,
particularly at intermediate noise levels, which coincide with the most
effective range accounting for image quality improvement.
- Abstract(参考訳): UNetアーキテクチャの導入により、拡散確率モデルは画像生成タスクにおいて支配的な力となっている。
UNetの鍵となる設計は、エンコーダとデコーダブロックの間のスキップ接続である。
スキップ接続はトレーニングの安定性とモデル性能を改善することが示されているが、このようなショートカットは変換の複雑さの制限要因となる可能性がある。
サンプリングステップが減少するにつれて、UNetの生成プロセスとUNetの役割はガウス分布からターゲットへのプッシュフォワード変換に近づき、ネットワークの複雑さに挑戦する。
この課題に対処するために,スキップ接続に対する単純かつ驚くほど効果的なトレーニングフリーチューニング手法であるskip-tuningを提案する。
NFE (1.75) が19個しかなく, ImageNet 64 で事前訓練された EDM に対して100% FID 改善を達成でき, サンプリングステップにかかわらず ODE サンプルの制限を破ることができる。
驚くべきことに、サンプリングステップの数を増やして、39 NFE (1.57) しか持たないEDM-2 (1.58) の最良の結果を超えることができると、改善は継続する。
意外な効果を明かすため、総合的な探索実験が行われた。
また,Skip-Tuningは画素空間におけるスコアマッチング損失を増大させるが,特に画像品質改善の最も効果的な範囲である中間雑音レベルにおいて,特徴空間の損失を減少させる。
関連論文リスト
- Improving Diffusion Inverse Problem Solving with Decoupled Noise Annealing [84.97865583302244]
本稿では,新しいノイズアニーリングプロセスに依存するDAPS (Decoupled Annealing Posterior Sampling) 法を提案する。
DAPSは、複数の画像復元タスクにおけるサンプル品質と安定性を著しく改善する。
例えば、フェーズ検索のためのFFHQ 256データセット上で、PSNRが30.72dBである場合、既存の手法と比較して9.12dBの改善となる。
論文 参考訳(メタデータ) (2024-07-01T17:59:23Z) - Diffusion for Natural Image Matting [93.86689168212241]
DiffMatteは、画像マッチングの課題を克服するために設計されたソリューションである。
まず、DiffMatteはデコーダを複雑な結合されたマッティングネットワーク設計から切り離し、拡散プロセスのイテレーションで1つの軽量デコーダだけを含む。
第2に、均一な時間間隔を持つ自己整合トレーニング戦略を採用し、時間領域全体にわたるトレーニングと推論の間に一貫したノイズサンプリングを確保する。
論文 参考訳(メタデータ) (2023-12-10T15:28:56Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Gradient Sparsification for Efficient Wireless Federated Learning with
Differential Privacy [25.763777765222358]
フェデレートラーニング(FL)により、分散クライアントは、生データを互いに共有することなく、機械学習モデルを協調的にトレーニングできる。
モデルのサイズが大きくなるにつれて、送信帯域の制限によるトレーニングのレイテンシが低下し、個人情報が劣化すると同時に、差分プライバシ(DP)保護を使用する。
我々は、収束性能を犠牲にすることなく、トレーニング効率を向上させるために、FLフレームワーク無線チャネルのスペース化を提案する。
論文 参考訳(メタデータ) (2023-04-09T05:21:15Z) - Surrogate Lagrangian Relaxation: A Path To Retrain-free Deep Neural
Network Pruning [9.33753001494221]
ネットワークプルーニングは、ディープニューラルネットワークの計算コストとモデルサイズの削減に広く用いられている手法である。
本稿では,サロゲートラグランジアン緩和に基づく体系的な重み付け最適化手法を開発する。
論文 参考訳(メタデータ) (2023-04-08T22:48:30Z) - Learning strides in convolutional neural networks [34.20666933112202]
この研究は、学習可能なステップを持つ最初のダウンサンプリング層であるDiffStrideを紹介している。
音声と画像の分類実験は,ソリューションの汎用性と有効性を示す。
論文 参考訳(メタデータ) (2022-02-03T16:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。