論文の概要: Task-Oriented Diffusion Model Compression
- arxiv url: http://arxiv.org/abs/2401.17547v1
- Date: Wed, 31 Jan 2024 02:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:52:43.977904
- Title: Task-Oriented Diffusion Model Compression
- Title(参考訳): タスク指向拡散モデル圧縮
- Authors: Geonung Kim, Beomsu Kim, Eunhyeok Park, Sunghyun Cho
- Abstract要約: 大規模テキスト・ツー・イメージ(T2I)拡散モデルでは,高画質な画像生成が可能であり,下流の多様な画像・画像(I2I)アプリケーションも登場している。
これらのI2Iモデルによって達成された印象的な結果にもかかわらず、その実用性は、その大きなモデルサイズと反復的復調過程の計算負担によって妨げられる。
本稿では,これらのI2Iモデルの圧縮ポテンシャルをタスク指向で検討し,モデルサイズと時間ステップ数を両立させる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 27.813361445528397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As recent advancements in large-scale Text-to-Image (T2I) diffusion models
have yielded remarkable high-quality image generation, diverse downstream
Image-to-Image (I2I) applications have emerged. Despite the impressive results
achieved by these I2I models, their practical utility is hampered by their
large model size and the computational burden of the iterative denoising
process. In this paper, we explore the compression potential of these I2I
models in a task-oriented manner and introduce a novel method for reducing both
model size and the number of timesteps. Through extensive experiments, we
observe key insights and use our empirical knowledge to develop practical
solutions that aim for near-optimal results with minimal exploration costs. We
validate the effectiveness of our method by applying it to InstructPix2Pix for
image editing and StableSR for image restoration. Our approach achieves
satisfactory output quality with 39.2% and 56.4% reduction in model footprint
and 81.4% and 68.7% decrease in latency to InstructPix2Pix and StableSR,
respectively.
- Abstract(参考訳): 近年の大規模テキスト・ツー・イメージ(T2I)拡散モデルの発展により,高画質な画像生成が可能となった。
これらのI2Iモデルによって達成された印象的な結果にもかかわらず、その実用性は、その大きなモデルサイズと反復的復調過程の計算負担によって妨げられる。
本稿では,これらのi2iモデルの圧縮ポテンシャルをタスク指向で検討し,モデルサイズと時間ステップ数の両方を削減する新しい手法を提案する。
広範な実験を通じて、重要な洞察を観察し、経験的知識を用いて、最小限の探索コストで最適に近い結果を目指す実用的なソリューションを開発します。
画像編集にはInstructPix2Pix,画像復元にはStableSRを適用し,本手法の有効性を検証した。
提案手法では, モデルフットプリントの39.2%, 56.4%, 81.4%, 68.7%の遅延をそれぞれInstructPix2PixとStableSRに削減した。
関連論文リスト
- SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - ToDo: Token Downsampling for Efficient Generation of High-Resolution Images [5.213225264281229]
本稿では、しばしば冗長な特徴を含む生成画像モデルにおける高密度注意の重要性を考察し、スペーサーの注意機構に適合させる。
2048x2048のような高分解能では最大2倍、最大4.5倍の安定拡散推論を加速するために、キーと値トークンのトークンダウンサンプリングに依存する新しいトレーニングフリーなToDoを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:10:28Z) - Compressing Deep Image Super-resolution Models [2.895266689123347]
この作業では、深部SRモデルの圧縮に3段階のワークフローを使用し、メモリ要求を大幅に削減する。
我々は,この手法をSwinIRとEDSRという2つの画像超解像ネットワークに適用し,その効果を実証した。
結果、SwinIRminiとEDSRminiはモデルサイズと浮動小数点演算の両方で89%と96%の削減を実現した。
論文 参考訳(メタデータ) (2023-12-31T15:38:50Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Towards Bidirectional Arbitrary Image Rescaling: Joint Optimization and
Cycle Idempotence [76.93002743194974]
本稿では、任意の再スケーリング(アップスケーリングとダウンスケーリングの両方)を統一プロセスとして扱う方法を提案する。
提案モデルでは、アップスケーリングとダウンスケーリングを同時に学習し、双方向の任意のイメージ再スケーリングを実現する。
繰り返しにダウンスケーリング・アップスケーリング・サイクルが適用された場合, 復元精度が著しく低下することなく, サイクルイデオポテンス試験において堅牢であることが確認された。
論文 参考訳(メタデータ) (2022-03-02T07:42:15Z) - Uncovering the Over-smoothing Challenge in Image Super-Resolution: Entropy-based Quantification and Contrastive Optimization [67.99082021804145]
我々はDetail Enhanced Contrastive Loss (DECLoss)と呼ばれるCOO問題に対する明確な解決策を提案する。
DECLossはコントラスト学習のクラスタリング特性を利用して、潜在的な高分解能分布の分散を直接的に低減する。
我々は複数の超高解像度ベンチマーク上でDECLosを評価し,PSNR指向モデルの知覚品質を向上させることを実証した。
論文 参考訳(メタデータ) (2022-01-04T08:30:09Z) - Pixel Distillation: A New Knowledge Distillation Scheme for
Low-Resolution Image Recognition [85.78793763053798]
我々は、高解像度(HR)画像から学習した重いネットワークモデルから、コンパクトなネットワークモデルに有用な知識を抽出する先駆的な試みを行っている。
本稿では,知識蒸留をモデル圧縮段階と高分解能表現伝達段階に分散させるTAS(Teacher-Assistant-Student)フレームワークを提案する。
提案手法では,重度教師モデルと同等の精度で,パラメータがはるかに少なく,推論速度が速く,低解像度の入力が可能な軽量ネットワークモデルを学習することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - Knowledge distillation: A good teacher is patient and consistent [71.14922743774864]
最先端のパフォーマンスを実現する大規模モデルと、実用的な用途で手頃な価格のモデルとの間には、コンピュータビジョンの相違が増えている。
蒸留の有効性に大きな影響を及ぼす可能性のある,特定の暗黙的な設計選択を同定する。
ImageNetの最先端ResNet-50モデルが82.8%の精度で実現されている。
論文 参考訳(メタデータ) (2021-06-09T17:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。