Fugu-MT 論文翻訳(概要): KOALA: Self-Attention Matters in Knowledge Distillation of Latent Diffusion Models for Memory-Efficient and Fast Image Synthesis

論文の概要: KOALA: Self-Attention Matters in Knowledge Distillation of Latent Diffusion Models for Memory-Efficient and Fast Image Synthesis

arxiv url: http://arxiv.org/abs/2312.04005v1
Date: Thu, 7 Dec 2023 02:46:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 16:13:51.611246
Title: KOALA: Self-Attention Matters in Knowledge Distillation of Latent Diffusion Models for Memory-Efficient and Fast Image Synthesis
Title（参考訳）: KOALA: メモリ効率・高速画像合成のための潜在拡散モデルの知識蒸留における自己注意事項
Authors: Youngwan Lee and Kwanyong Park and Yoorhim Cho and Yong-Ju Lee and Sung Ju Hwang
Abstract要約: SDXLの知識を蒸留して得られたテキスト・画像合成のための効率的な潜時拡散モデルを提案する。 KOALA-1B &-700Mと呼ばれる効率的なT2Iモデルを構築し、SDXLモデルの54%と69%のモデルサイズを削減した。
参考スコア（独自算出の注目度）: 56.242024398553355
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Stable diffusion is the mainstay of the text-to-image (T2I) synthesis in the community due to its generation performance and open-source nature. Recently, Stable Diffusion XL (SDXL), the successor of stable diffusion, has received a lot of attention due to its significant performance improvements with a higher resolution of 1024x1024 and a larger model. However, its increased computation cost and model size require higher-end hardware(e.g., bigger VRAM GPU) for end-users, incurring higher costs of operation. To address this problem, in this work, we propose an efficient latent diffusion model for text-to-image synthesis obtained by distilling the knowledge of SDXL. To this end, we first perform an in-depth analysis of the denoising U-Net in SDXL, which is the main bottleneck of the model, and then design a more efficient U-Net based on the analysis. Secondly, we explore how to effectively distill the generation capability of SDXL into an efficient U-Net and eventually identify four essential factors, the core of which is that self-attention is the most important part. With our efficient U-Net and self-attention-based knowledge distillation strategy, we build our efficient T2I models, called KOALA-1B & -700M, while reducing the model size up to 54% and 69% of the original SDXL model. In particular, the KOALA-700M is more than twice as fast as SDXL while still retaining a decent generation quality. We hope that due to its balanced speed-performance tradeoff, our KOALA models can serve as a cost-effective alternative to SDXL in resource-constrained environments.
Abstract（参考訳）: 安定拡散は、コミュニティにおけるテキスト・ツー・イメージ(T2I)合成の主要な基盤である。近年,安定拡散の後継となる安定拡散XL (SDXL) は1024×1024の高分解能とより大きなモデルで大幅な性能向上を達成し,多くの注目を集めている。しかし、その計算コストとモデルサイズの増加は、エンドユーザーのためのハイエンドハードウェア(例えば、より大きなVRAM GPU)を必要とし、高い演算コストをもたらす。そこで本研究では,SDXLの知識を蒸留して得られたテキスト・画像合成のための効率的な潜時拡散モデルを提案する。この目的のために,我々はまず,モデルの主なボトルネックであるsdxlにおける消音u-netの詳細な解析を行い,分析に基づいてより効率的なu-netを設計する。次に、SDXLの生成能力を効率的なU-Netに効果的に蒸留する方法を検討し、最終的には4つの重要な要因を同定する。効率的なU-Netと自己注意型知識蒸留戦略により,KOALA-1B &-700Mと呼ばれる効率的なT2Iモデルを構築し,SDXLモデルの54%と69%のモデルサイズを削減した。特にKoALA-700MはSDXLの2倍以上の速さで、それでも良好な世代品質を維持している。バランスの取れた速度性能のトレードオフにより,我々のKOALAモデルは資源制約環境におけるSDXLの代替として費用対効果が期待できる。

関連論文リスト

SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training [77.681908636429]
T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
論文参考訳（メタデータ） (2024-12-12T18:59:53Z)
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。 CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。 CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文参考訳（メタデータ） (2024-11-26T15:13:15Z)
Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion [34.70370851239368]
画素空間モデルは、実際、品質と効率の両面において、潜在的なアプローチと非常に競合する可能性があることを示す。エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
論文参考訳（メタデータ） (2024-10-25T06:20:06Z)
ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization [59.72782742378666]
本稿では,Reward-based Noise Optimization (ReNO) を提案する。 20-50秒の計算予算の中で、ReNOによって強化されたワンステップモデルは、現在のすべてのオープンソーステキスト・トゥ・イメージ・モデルの性能を一貫して上回った。
論文参考訳（メタデータ） (2024-06-06T17:56:40Z)
SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文参考訳（メタデータ） (2024-03-25T11:16:23Z)
Diffusion Model Compression for Image-to-Image Translation [25.46012859377184]
拡散型I2Iモデルに適した新しい圧縮手法を提案する。 I2Iモデルの画像条件が既に画像構造に関する豊富な情報を提供するという観測に基づいて、モデルサイズと遅延を低減するための驚くほど単純で効果的なアプローチを開発する。提案手法は, モデルフットプリントの39.2%, 56.4%, 39.2%, 81.4%, 68.7%, および31.1%の遅延をそれぞれInstructPix2Pix, StableSR, ControlNetに減少させることで, 良好な出力品質を実現する。
論文参考訳（メタデータ） (2024-01-31T02:25:52Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images [19.62509002853736]
我々はCreative-Commons-Lensed (CC) 画像のデータセットを組み立て、テキストから画像への生成モデルを訓練する。我々は直感的な転写学習技術を用いて、CC画像と組み合わせた高品質な合成キャプションのセットを作成する。我々は既存のSD2モデルのトレーニングに必要なLAION-2Bデータの3%しか必要としないが、同等の品質が得られるデータと計算効率のトレーニングレシピを開発した。
論文参考訳（メタデータ） (2023-10-25T17:56:07Z)
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文参考訳（メタデータ） (2023-06-01T17:59:25Z)
Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2～20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文参考訳（メタデータ） (2023-05-31T15:02:02Z)
BK-SDM: A Lightweight, Fast, and Cheap Version of Stable Diffusion [3.1092085121563526]
安定拡散モデル(SDM)を用いたテキスト・ツー・イメージ(T2I)生成は高い計算要求を伴う。近年の研究では、サンプリングのステップを減らし、元のアーキテクチャを維持しながらネットワーク量子化を適用している。低コスト汎用T2Iにおけるブロックプレーニングと特徴蒸留の驚くべき可能性を明らかにする。
論文参考訳（メタデータ） (2023-05-25T07:28:28Z)
HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文参考訳（メタデータ） (2023-03-29T07:35:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。