論文の概要: SpeedUpNet: A Plug-and-Play Adapter Network for Accelerating Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.08887v4
- Date: Tue, 01 Oct 2024 08:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:20.401893
- Title: SpeedUpNet: A Plug-and-Play Adapter Network for Accelerating Text-to-Image Diffusion Models
- Title(参考訳): SpeedUpNet: テキスト・画像拡散モデルの高速化のためのプラグイン・アンド・プレイアダプタネットワーク
- Authors: Weilong Chai, DanDan Zheng, Jiajiong Cao, Zhiquan Chen, Changbao Wang, Chenguang Ma,
- Abstract要約: テキスト・ツー・イメージ拡散モデル(SD)は、広範な計算資源を必要とする一方で、大幅な進歩を示す。
LCM-LoRAは、様々なモデルで一度トレーニング可能で、普遍性を提供するが、アクセラレーション前後で生成されたコンテンツの一貫性を確保することはめったにない。
本稿では,革新的アクセラレーションモジュールであるSpeedUpNet(SUN)を提案し,普遍性と一貫性の課題に対処する。
- 参考スコア(独自算出の注目度): 4.232258232565518
- License:
- Abstract: Text-to-image diffusion models (SD) exhibit significant advancements while requiring extensive computational resources. Existing acceleration methods usually require extensive training and are not universally applicable. LCM-LoRA, trainable once for diverse models, offers universality but rarely considers ensuring the consistency of generated content before and after acceleration. This paper proposes SpeedUpNet (SUN), an innovative acceleration module, to address the challenges of universality and consistency. Exploiting the role of cross-attention layers in U-Net for SD models, we introduce an adapter specifically designed for these layers, quantifying the offset in image generation caused by negative prompts relative to positive prompts. This learned offset demonstrates stability across a range of models, enhancing SUN's universality. To improve output consistency, we propose a Multi-Step Consistency (MSC) loss, which stabilizes the offset and ensures fidelity in accelerated content. Experiments on SD v1.5 show that SUN leads to an overall speedup of more than 10 times compared to the baseline 25-step DPM-solver++, and offers two extra advantages: (1) training-free integration into various fine-tuned Stable-Diffusion models and (2) state-of-the-art FIDs of the generated data set before and after acceleration guided by random combinations of positive and negative prompts. Code is available: https://williechai.github.io/speedup-plugin-for-stable-diffusions.github.io.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデル(SD)は、広範な計算資源を必要とする一方で、大幅な進歩を示す。
既存の加速法は通常、広範囲な訓練を必要とし、普遍的に適用できない。
LCM-LoRAは、様々なモデルで一度トレーニング可能で、普遍性を提供するが、アクセラレーション前後で生成されたコンテンツの一貫性を確保することはめったにない。
本稿では,革新的アクセラレーションモジュールであるSpeedUpNet(SUN)を提案し,普遍性と一貫性の課題に対処する。
SDモデル用U-Netにおけるクロスアテンション層の役割を開拓し,これらの層に特化して設計されたアダプタを導入し,正のプロンプトに対する負のプロンプトによる画像生成のオフセットを定量化する。
この学習されたオフセットは、様々なモデルの安定性を示し、SUNの普遍性を高める。
出力の整合性を改善するために、オフセットを安定化し、アクセラレーションされたコンテンツの忠実性を確保するマルチステップ整合性(MSC)損失を提案する。
SD v1.5の実験では、SUNはベースライン25ステップのDPM-solver++に比べて10倍以上のスピードアップを実現しており、(1)様々な微調整された安定拡散モデルへのトレーニング不要な統合と(2)正と負のプロンプトのランダムな組み合わせによって導かれる加速前の生成されたデータセットの最先端FIDの2つの利点がある。
コードは、https://williechai.github.io/speedup-plugin-for-stable-diffusions.github.ioで入手できる。
関連論文リスト
- FORA: Fast-Forward Caching in Diffusion Transformer Acceleration [39.51519525071639]
拡散変換器(DiT)は、高品質な画像やビデオを生成するための事実上の選択肢となっている。
Fast-FORward Caching (FORA) は拡散過程の反復特性を利用してDiTを加速するように設計されている。
論文 参考訳(メタデータ) (2024-07-01T16:14:37Z) - Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis [20.2271205957037]
Hyper-SDはODEトラジェクトリ保存と改革の利点を活かす新しいフレームワークである。
本稿では, 予め定義された時間ステップセグメント内で一貫した蒸留を行うために, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入する。
人間のフィードバック学習を取り入れ、低段階のモデルの性能を高めるとともに、蒸留プロセスによって生じる性能損失を軽減する。
論文 参考訳(メタデータ) (2024-04-21T15:16:05Z) - Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation [24.236841051249243]
蒸留法は、モデルをマルチショットからシングルステップ推論にシフトすることを目的としている。
ADDの限界を克服する新しい蒸留法であるLADD(Latent Adversarial Diffusion Distillation)を導入する。
ピクセルベースのADDとは対照的に、LADDは事前訓練された潜伏拡散モデルから生成的特徴を利用する。
論文 参考訳(メタデータ) (2024-03-18T17:51:43Z) - T-Stitch: Accelerating Sampling in Pre-Trained Diffusion Models with
Trajectory Stitching [143.72720563387082]
Trajectory Stitching T-Stitchは, ほとんどあるいは全く発生しないことなくサンプリング効率を向上させるための, 単純かつ効率的な手法である。
我々の重要な洞察は、異なる拡散モデルが同じトレーニングデータ分布の下で同様のエンコーディングを学ぶことである。
また,本手法は,SDモデルの高速化を目的としたドロップイン手法としても利用できる。
論文 参考訳(メタデータ) (2024-02-21T23:08:54Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Wavelet Diffusion Models are fast and scalable Image Generators [3.222802562733787]
拡散モデルは高忠実度画像生成のための強力な解であり、多くの状況においてGANを超える。
最近のDiffusionGAN法は、サンプリングステップの数を数千から数に減らして、モデルの実行時間を著しく短縮するが、その速度はGANよりもかなり遅れている。
本稿では,新しいウェーブレット拡散方式を提案することにより,速度ギャップを低減することを目的とする。
我々は、ウェーブレット分解により、画像と特徴レベルの両方から低周波数成分を抽出し、これらの成分を適応的に処理し、良好な生成品質を維持しながら高速に処理する。
論文 参考訳(メタデータ) (2022-11-29T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。