論文の概要: Task-Oriented Diffusion Model Compression
- arxiv url: http://arxiv.org/abs/2401.17547v1
- Date: Wed, 31 Jan 2024 02:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:52:43.977904
- Title: Task-Oriented Diffusion Model Compression
- Title(参考訳): タスク指向拡散モデル圧縮
- Authors: Geonung Kim, Beomsu Kim, Eunhyeok Park, Sunghyun Cho
- Abstract要約: 大規模テキスト・ツー・イメージ(T2I)拡散モデルでは,高画質な画像生成が可能であり,下流の多様な画像・画像(I2I)アプリケーションも登場している。
これらのI2Iモデルによって達成された印象的な結果にもかかわらず、その実用性は、その大きなモデルサイズと反復的復調過程の計算負担によって妨げられる。
本稿では,これらのI2Iモデルの圧縮ポテンシャルをタスク指向で検討し,モデルサイズと時間ステップ数を両立させる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 27.813361445528397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As recent advancements in large-scale Text-to-Image (T2I) diffusion models
have yielded remarkable high-quality image generation, diverse downstream
Image-to-Image (I2I) applications have emerged. Despite the impressive results
achieved by these I2I models, their practical utility is hampered by their
large model size and the computational burden of the iterative denoising
process. In this paper, we explore the compression potential of these I2I
models in a task-oriented manner and introduce a novel method for reducing both
model size and the number of timesteps. Through extensive experiments, we
observe key insights and use our empirical knowledge to develop practical
solutions that aim for near-optimal results with minimal exploration costs. We
validate the effectiveness of our method by applying it to InstructPix2Pix for
image editing and StableSR for image restoration. Our approach achieves
satisfactory output quality with 39.2% and 56.4% reduction in model footprint
and 81.4% and 68.7% decrease in latency to InstructPix2Pix and StableSR,
respectively.
- Abstract(参考訳): 近年の大規模テキスト・ツー・イメージ(T2I)拡散モデルの発展により,高画質な画像生成が可能となった。
これらのI2Iモデルによって達成された印象的な結果にもかかわらず、その実用性は、その大きなモデルサイズと反復的復調過程の計算負担によって妨げられる。
本稿では,これらのi2iモデルの圧縮ポテンシャルをタスク指向で検討し,モデルサイズと時間ステップ数の両方を削減する新しい手法を提案する。
広範な実験を通じて、重要な洞察を観察し、経験的知識を用いて、最小限の探索コストで最適に近い結果を目指す実用的なソリューションを開発します。
画像編集にはInstructPix2Pix,画像復元にはStableSRを適用し,本手法の有効性を検証した。
提案手法では, モデルフットプリントの39.2%, 56.4%, 81.4%, 68.7%の遅延をそれぞれInstructPix2PixとStableSRに削減した。
関連論文リスト
- SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training [77.681908636429]
T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。
本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
論文 参考訳(メタデータ) (2024-12-12T18:59:53Z) - Efficient Pruning of Text-to-Image Models: Insights from Pruning Stable Diffusion [3.399289369740637]
本稿では,安定拡散2号の訓練後刈り込みに関する先駆的な研究について述べる。
テキスト・ツー・イメージ領域におけるモデル圧縮に対する重要なニーズに対処する。
本稿では,テキストエンコーダを47.5%,拡散生成器を35%にプルークする最適プルーニング構成を提案する。
論文 参考訳(メタデータ) (2024-11-22T18:29:37Z) - Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion [34.70370851239368]
画素空間モデルは、実際、品質と効率の両面において、潜在的なアプローチと非常に競合する可能性があることを示す。
エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
論文 参考訳(メタデータ) (2024-10-25T06:20:06Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。
これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。
SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文 参考訳(メタデータ) (2023-12-07T02:46:18Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - DiffI2I: Efficient Diffusion Model for Image-to-Image Translation [108.82579440308267]
画像合成のためのSOTAアプローチとして拡散モデル (DM) が登場した。
DMは画像から画像への変換(I2I)タスクではうまく機能しない。
DiffI2Iは、コンパクトI2I事前抽出ネットワーク(CPEN)、動的I2Iトランス(DI2Iformer)、デノイングネットワーク(denoising network)の3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-08-26T05:18:23Z) - Refusion: Enabling Large-Size Realistic Image Restoration with
Latent-Space Diffusion Models [9.245782611878752]
ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。
また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。
これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
論文 参考訳(メタデータ) (2023-04-17T14:06:49Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。