Fugu-MT 論文翻訳(概要): On Architectural Compression of Text-to-Image Diffusion Models

論文の概要: On Architectural Compression of Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2305.15798v1
Date: Thu, 25 May 2023 07:28:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 16:46:39.223360
Title: On Architectural Compression of Text-to-Image Diffusion Models
Title（参考訳）: テキスト・画像拡散モデルのアーキテクチャ圧縮について
Authors: Bo-Kyeong Kim, Hyoung-Kyu Song, Thibault Castells, Shinkook Choi
Abstract要約: 本研究は,ブロック除去知識蒸留SDM(BK-SDM)の導入による汎用T2I合成のための古典的アーキテクチャ圧縮のパワーを強調した。 1つのA100 GPU上で0.22MLAIONペア(フルトレーニングペアの0.1%以下)で蒸留ベースの事前トレーニングを行う。我々のコンパクトモデルでは、転送された知識の恩恵を受け、ゼロショットMS-COCOベンチマークでより大きなマルチビリオンパラメータモデルと競合する結果を得ることで、元のSDMを模倣することができる。
参考スコア（独自算出の注目度）: 4.568911586155097
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Exceptional text-to-image (T2I) generation results of Stable Diffusion models (SDMs) come with substantial computational demands. To resolve this issue, recent research on efficient SDMs has prioritized reducing the number of sampling steps and utilizing network quantization. Orthogonal to these directions, this study highlights the power of classical architectural compression for general-purpose T2I synthesis by introducing block-removed knowledge-distilled SDMs (BK-SDMs). We eliminate several residual and attention blocks from the U-Net of SDMs, obtaining over a 30% reduction in the number of parameters, MACs per sampling step, and latency. We conduct distillation-based pretraining with only 0.22M LAION pairs (fewer than 0.1% of the full training pairs) on a single A100 GPU. Despite being trained with limited resources, our compact models can imitate the original SDM by benefiting from transferred knowledge and achieve competitive results against larger multi-billion parameter models on the zero-shot MS-COCO benchmark. Moreover, we demonstrate the applicability of our lightweight pretrained models in personalized generation with DreamBooth finetuning.
Abstract（参考訳）: 安定拡散モデル(SDM)の例外テキスト・トゥ・イメージ(T2I)生成結果には、かなりの計算要求がある。この問題を解決するため、近年の効率的なSDMの研究はサンプリングステップの削減とネットワーク量子化の利用を優先している。本研究は,ブロック除去された知識蒸留SDM(BK-SDM)を導入することにより,汎用T2I合成のための古典的アーキテクチャ圧縮の力を強調する。我々は,SDMのU-Netから残差や注意ブロックを除去し,パラメータ数,サンプリングステップ毎のMAC数,レイテンシを30%以上削減する。 1つのA100 GPU上で0.22MLAIONペア(フルトレーニングペアの0.1%以下)で蒸留ベースの事前トレーニングを行う。限られた資源で訓練されているにもかかわらず、我々のコンパクトモデルは、転送された知識の恩恵を受け、ゼロショットMS-COCOベンチマーク上のより大きなマルチビリオンパラメータモデルに対して競合する結果を得ることにより、元のSDMを模倣することができる。さらに,dreambooth finetuningを用いたパーソナライズ生成における軽量事前学習モデルの適用性を示す。

関連論文リスト

Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文参考訳（メタデータ） (2025-06-03T06:02:50Z)
Replay-Based Continual Learning with Dual-Layered Distillation and a Streamlined U-Net for Efficient Text-to-Image Generation [2.4280350854512673]
KDC-Diffは、画像品質を維持しながら効率を高める新しい安定拡散フレームワークである。 Oxford Flowers and Butterflies & Moths 100種データセットの最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-05-11T14:40:51Z)
SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training [77.681908636429]
T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
論文参考訳（メタデータ） (2024-12-12T18:59:53Z)
LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-04-18T06:35:37Z)
SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文参考訳（メタデータ） (2024-03-25T11:16:23Z)
Progressive Knowledge Distillation Of Stable Diffusion XL Using Layer Level Loss [6.171638819257848]
SDXL (Stable Diffusion XL) は、その汎用性とトップノート画像の品質のために、オープンソーステキスト・イメージ・モデル(T2I)として最高のものとなっている。 SDXLモデルの計算要求に効果的に対処することは、幅広いリーチと適用性に不可欠である。本稿では,Segmind Stable Diffusion (SSD-1B) とSegmind-Vega (Segmind-Vega) の2つのスケールダウン変種を紹介した。
論文参考訳（メタデータ） (2024-01-05T07:21:46Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。 SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文参考訳（メタデータ） (2023-12-07T02:46:18Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)
ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。 CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文参考訳（メタデータ） (2023-11-23T16:49:06Z)
MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。 MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。 8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文参考訳（メタデータ） (2023-06-01T17:59:25Z)
Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。 CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文参考訳（メタデータ） (2020-06-12T15:07:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。