論文の概要: Diffusion Model Compression for Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2401.17547v2
- Date: Thu, 10 Oct 2024 01:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:30.372706
- Title: Diffusion Model Compression for Image-to-Image Translation
- Title(参考訳): 画像間変換のための拡散モデル圧縮
- Authors: Geonung Kim, Beomsu Kim, Eunhyeok Park, Sunghyun Cho,
- Abstract要約: 拡散型I2Iモデルに適した新しい圧縮手法を提案する。
I2Iモデルの画像条件が既に画像構造に関する豊富な情報を提供するという観測に基づいて、モデルサイズと遅延を低減するための驚くほど単純で効果的なアプローチを開発する。
提案手法は, モデルフットプリントの39.2%, 56.4%, 39.2%, 81.4%, 68.7%, および31.1%の遅延をそれぞれInstructPix2Pix, StableSR, ControlNetに減少させることで, 良好な出力品質を実現する。
- 参考スコア(独自算出の注目度): 25.46012859377184
- License:
- Abstract: As recent advances in large-scale Text-to-Image (T2I) diffusion models have yielded remarkable high-quality image generation, diverse downstream Image-to-Image (I2I) applications have emerged. Despite the impressive results achieved by these I2I models, their practical utility is hampered by their large model size and the computational burden of the iterative denoising process. In this paper, we propose a novel compression method tailored for diffusion-based I2I models. Based on the observations that the image conditions of I2I models already provide rich information on image structures, and that the time steps with a larger impact tend to be biased, we develop surprisingly simple yet effective approaches for reducing the model size and latency. We validate the effectiveness of our method on three representative I2I tasks: InstructPix2Pix for image editing, StableSR for image restoration, and ControlNet for image-conditional image generation. Our approach achieves satisfactory output quality with 39.2%, 56.4% and 39.2% reduction in model footprint, as well as 81.4%, 68.7% and 31.1% decrease in latency to InstructPix2Pix, StableSR and ControlNet, respectively.
- Abstract(参考訳): 近年の大規模テキスト・ツー・イメージ(T2I)拡散モデルの発展により,高画質な画像生成が可能となった。
これらのI2Iモデルによって達成された印象的な結果にもかかわらず、その実用性は、その大きなモデルサイズと反復的復調過程の計算負担によって妨げられる。
本稿では拡散型I2Iモデルに適した新しい圧縮手法を提案する。
I2Iモデルの画像条件は、既に画像構造に関する豊富な情報を提供しており、より大きなインパクトを持つ時間ステップに偏りが生じる傾向にあるという観測に基づいて、モデルサイズと遅延を低減するための驚くほど単純で効果的なアプローチを開発する。
InstructPix2Pix for image editing, StableSR for image restoration, ControlNet for image-conditional image generation。
提案手法は, モデルフットプリントの39.2%, 56.4%, 39.2%, 81.4%, 68.7%, および31.1%の遅延をそれぞれInstructPix2Pix, StableSR, ControlNetに減少させることで, 良好な出力品質を実現する。
関連論文リスト
- Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion [34.70370851239368]
画素空間モデルは、実際、品質と効率の両面において、潜在的なアプローチと非常に競合する可能性があることを示す。
エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
論文 参考訳(メタデータ) (2024-10-25T06:20:06Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。
これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。
SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文 参考訳(メタデータ) (2023-12-07T02:46:18Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion [88.8198344514677]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。
AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。
提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - DiffI2I: Efficient Diffusion Model for Image-to-Image Translation [108.82579440308267]
画像合成のためのSOTAアプローチとして拡散モデル (DM) が登場した。
DMは画像から画像への変換(I2I)タスクではうまく機能しない。
DiffI2Iは、コンパクトI2I事前抽出ネットワーク(CPEN)、動的I2Iトランス(DI2Iformer)、デノイングネットワーク(denoising network)の3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-08-26T05:18:23Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Wuerstchen: An Efficient Architecture for Large-Scale Text-to-Image
Diffusion Models [6.821399706256863]
W"urstchen"は、競争性能と前例のない費用対効果を組み合わせたテキスト対画像合成の新しいアーキテクチャである。
我々の研究の重要な貢献は、詳細だが非常にコンパクトなセマンティックイメージ表現を学習する潜伏拡散技術を開発することである。
論文 参考訳(メタデータ) (2023-06-01T13:00:53Z) - Refusion: Enabling Large-Size Realistic Image Restoration with
Latent-Space Diffusion Models [9.245782611878752]
ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。
また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。
これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
論文 参考訳(メタデータ) (2023-04-17T14:06:49Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。