Fugu-MT 論文翻訳(概要): Task-Oriented Diffusion Model Compression

論文の概要: Task-Oriented Diffusion Model Compression

arxiv url: http://arxiv.org/abs/2401.17547v1
Date: Wed, 31 Jan 2024 02:25:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 15:52:43.977904
Title: Task-Oriented Diffusion Model Compression
Title（参考訳）: タスク指向拡散モデル圧縮
Authors: Geonung Kim, Beomsu Kim, Eunhyeok Park, Sunghyun Cho
Abstract要約: 大規模テキスト・ツー・イメージ(T2I)拡散モデルでは,高画質な画像生成が可能であり,下流の多様な画像・画像(I2I)アプリケーションも登場している。これらのI2Iモデルによって達成された印象的な結果にもかかわらず、その実用性は、その大きなモデルサイズと反復的復調過程の計算負担によって妨げられる。本稿では,これらのI2Iモデルの圧縮ポテンシャルをタスク指向で検討し,モデルサイズと時間ステップ数を両立させる新しい手法を提案する。
参考スコア（独自算出の注目度）: 27.813361445528397
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As recent advancements in large-scale Text-to-Image (T2I) diffusion models have yielded remarkable high-quality image generation, diverse downstream Image-to-Image (I2I) applications have emerged. Despite the impressive results achieved by these I2I models, their practical utility is hampered by their large model size and the computational burden of the iterative denoising process. In this paper, we explore the compression potential of these I2I models in a task-oriented manner and introduce a novel method for reducing both model size and the number of timesteps. Through extensive experiments, we observe key insights and use our empirical knowledge to develop practical solutions that aim for near-optimal results with minimal exploration costs. We validate the effectiveness of our method by applying it to InstructPix2Pix for image editing and StableSR for image restoration. Our approach achieves satisfactory output quality with 39.2% and 56.4% reduction in model footprint and 81.4% and 68.7% decrease in latency to InstructPix2Pix and StableSR, respectively.
Abstract（参考訳）: 近年の大規模テキスト・ツー・イメージ(T2I)拡散モデルの発展により,高画質な画像生成が可能となった。これらのI2Iモデルによって達成された印象的な結果にもかかわらず、その実用性は、その大きなモデルサイズと反復的復調過程の計算負担によって妨げられる。本稿では,これらのi2iモデルの圧縮ポテンシャルをタスク指向で検討し,モデルサイズと時間ステップ数の両方を削減する新しい手法を提案する。広範な実験を通じて、重要な洞察を観察し、経験的知識を用いて、最小限の探索コストで最適に近い結果を目指す実用的なソリューションを開発します。画像編集にはInstructPix2Pix,画像復元にはStableSRを適用し,本手法の有効性を検証した。提案手法では, モデルフットプリントの39.2%, 56.4%, 81.4%, 68.7%の遅延をそれぞれInstructPix2PixとStableSRに削減した。

関連論文リスト

LowDiff: Efficient Diffusion Sampling with Low-Resolution Condition [12.702798486507225]
LowDiffは、カスケードアプローチに基づく、新しく効率的な拡散フレームワークである。 LowDiffは、低解像度から所望の解像度まで画像を段階的に洗練する統一モデルを採用している。
論文参考訳（メタデータ） (2025-09-18T18:31:56Z)
SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training [77.681908636429]
T2I(Text-to-image)モデルは、大きなモデルサイズ、遅い、低品質なモバイルデバイス生成など、いくつかの制限に直面している。本稿では,モバイルプラットフォーム上で高解像度かつ高画質な画像を生成する,超小型かつ高速なT2Iモデルを開発することを目的とする。
論文参考訳（メタデータ） (2024-12-12T18:59:53Z)
Efficient Pruning of Text-to-Image Models: Insights from Pruning Stable Diffusion [3.399289369740637]
本稿では,安定拡散2号の訓練後刈り込みに関する先駆的な研究について述べる。テキスト・ツー・イメージ領域におけるモデル圧縮に対する重要なニーズに対処する。本稿では,テキストエンコーダを47.5%,拡散生成器を35%にプルークする最適プルーニング構成を提案する。
論文参考訳（メタデータ） (2024-11-22T18:29:37Z)
Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion [34.70370851239368]
画素空間モデルは、実際、品質と効率の両面において、潜在的なアプローチと非常に競合する可能性があることを示す。エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
論文参考訳（メタデータ） (2024-10-25T06:20:06Z)
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文参考訳（メタデータ） (2024-06-10T17:59:52Z)
SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文参考訳（メタデータ） (2024-03-25T11:16:23Z)
KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。 SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文参考訳（メタデータ） (2023-12-07T02:46:18Z)
AdaDiff: Adaptive Step Selection for Fast Diffusion [88.8198344514677]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。 AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
論文参考訳（メタデータ） (2023-11-24T11:20:38Z)
DiffI2I: Efficient Diffusion Model for Image-to-Image Translation [108.82579440308267]
画像合成のためのSOTAアプローチとして拡散モデル (DM) が登場した。 DMは画像から画像への変換(I2I)タスクではうまく機能しない。 DiffI2Iは、コンパクトI2I事前抽出ネットワーク(CPEN)、動的I2Iトランス(DI2Iformer)、デノイングネットワーク(denoising network)の3つのキーコンポーネントから構成される。
論文参考訳（メタデータ） (2023-08-26T05:18:23Z)
ACDMSR: Accelerated Conditional Diffusion Models for Single Image Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文参考訳（メタデータ） (2023-07-03T06:49:04Z)
Wuerstchen: An Efficient Architecture for Large-Scale Text-to-Image Diffusion Models [6.821399706256863]
W"urstchen"は、競争性能と前例のない費用対効果を組み合わせたテキスト対画像合成の新しいアーキテクチャである。我々の研究の重要な貢献は、詳細だが非常にコンパクトなセマンティックイメージ表現を学習する潜伏拡散技術を開発することである。
論文参考訳（メタデータ） (2023-06-01T13:00:53Z)
Refusion: Enabling Large-Size Realistic Image Restoration with Latent-Space Diffusion Models [9.245782611878752]
ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
論文参考訳（メタデータ） (2023-04-17T14:06:49Z)
On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-10-06T18:03:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。