Fugu-MT 論文翻訳(概要): SpeedUpNet: A Plug-and-Play Adapter Network for Accelerating Text-to-Image Diffusion Models

論文の概要: SpeedUpNet: A Plug-and-Play Adapter Network for Accelerating Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2312.08887v4
Date: Tue, 01 Oct 2024 08:30:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 01:44:19.911955
Title: SpeedUpNet: A Plug-and-Play Adapter Network for Accelerating Text-to-Image Diffusion Models
Title（参考訳）: SpeedUpNet: テキスト・画像拡散モデルの高速化のためのプラグイン・アンド・プレイアダプタネットワーク
Authors: Weilong Chai, DanDan Zheng, Jiajiong Cao, Zhiquan Chen, Changbao Wang, Chenguang Ma,
Abstract要約: テキスト・ツー・イメージ拡散モデル(SD)は、広範な計算資源を必要とする一方で、大幅な進歩を示す。 LCM-LoRAは、様々なモデルで一度トレーニング可能で、普遍性を提供するが、アクセラレーション前後で生成されたコンテンツの一貫性を確保することはめったにない。本稿では,革新的アクセラレーションモジュールであるSpeedUpNet(SUN)を提案し,普遍性と一貫性の課題に対処する。
参考スコア（独自算出の注目度）: 4.232258232565518
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Text-to-image diffusion models (SD) exhibit significant advancements while requiring extensive computational resources. Existing acceleration methods usually require extensive training and are not universally applicable. LCM-LoRA, trainable once for diverse models, offers universality but rarely considers ensuring the consistency of generated content before and after acceleration. This paper proposes SpeedUpNet (SUN), an innovative acceleration module, to address the challenges of universality and consistency. Exploiting the role of cross-attention layers in U-Net for SD models, we introduce an adapter specifically designed for these layers, quantifying the offset in image generation caused by negative prompts relative to positive prompts. This learned offset demonstrates stability across a range of models, enhancing SUN's universality. To improve output consistency, we propose a Multi-Step Consistency (MSC) loss, which stabilizes the offset and ensures fidelity in accelerated content. Experiments on SD v1.5 show that SUN leads to an overall speedup of more than 10 times compared to the baseline 25-step DPM-solver++, and offers two extra advantages: (1) training-free integration into various fine-tuned Stable-Diffusion models and (2) state-of-the-art FIDs of the generated data set before and after acceleration guided by random combinations of positive and negative prompts. Code is available: https://williechai.github.io/speedup-plugin-for-stable-diffusions.github.io.
Abstract（参考訳）: テキスト・ツー・イメージ拡散モデル(SD)は、広範な計算資源を必要とする一方で、大幅な進歩を示す。既存の加速法は通常、広範囲な訓練を必要とし、普遍的に適用できない。 LCM-LoRAは、様々なモデルで一度トレーニング可能で、普遍性を提供するが、アクセラレーション前後で生成されたコンテンツの一貫性を確保することはめったにない。本稿では,革新的アクセラレーションモジュールであるSpeedUpNet(SUN)を提案し,普遍性と一貫性の課題に対処する。 SDモデル用U-Netにおけるクロスアテンション層の役割を開拓し,これらの層に特化して設計されたアダプタを導入し,正のプロンプトに対する負のプロンプトによる画像生成のオフセットを定量化する。この学習されたオフセットは、様々なモデルの安定性を示し、SUNの普遍性を高める。出力の整合性を改善するために、オフセットを安定化し、アクセラレーションされたコンテンツの忠実性を確保するマルチステップ整合性(MSC)損失を提案する。 SD v1.5の実験では、SUNはベースライン25ステップのDPM-solver++に比べて10倍以上のスピードアップを実現しており、(1)様々な微調整された安定拡散モデルへのトレーニング不要な統合と(2)正と負のプロンプトのランダムな組み合わせによって導かれる加速前の生成されたデータセットの最先端FIDの2つの利点がある。コードは、https://williechai.github.io/speedup-plugin-for-stable-diffusions.github.ioで入手できる。

関連論文リスト

Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference [58.06027151683975]
本稿では,離散状態拡散に基づく大規模言語モデルであるSeed Diffusion Previewを提案する。非逐次並列生成により、離散拡散モデルはトークン・バイ・トークン・バイ・トークン・デコーディングの固有の遅延を軽減するために顕著なスピードアップを提供する。
論文参考訳（メタデータ） (2025-08-04T08:43:01Z)
CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。 ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文参考訳（メタデータ） (2025-07-21T05:48:47Z)
Morse: Dual-Sampling for Lossless Acceleration of Diffusion Models [14.618774364317053]
拡散モデルを損失なく加速するための二重サンプリングフレームワークであるMorseを提案する。特にMorseには、DashとDotという2つのモデルがあり、互いに対話する。 DashとDotモデルの出力をタイムインターリーブ方式でチェーンすることで、Morseはフレキシブルに所望の画像生成性能を得るというメリットを示す。
論文参考訳（メタデータ） (2025-06-23T02:43:21Z)
FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T05:00:39Z)
DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling [53.33281984430122]
Diffusion Transformer (DiT) は、視覚生成のための有望な拡散モデルであるが、計算オーバーヘッドが大きい。本稿では,効率的かつ表現力のある拡散モデルを構築するための代替ビルディングブロックとして,畳み込みを再考する。標準のConvNetモジュールから完全に構築された拡散モデルのファミリであるDiffusion ConvNet(DiCo)を紹介する。
論文参考訳（メタデータ） (2025-05-16T12:54:04Z)
FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。 PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。 FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文参考訳（メタデータ） (2025-03-25T15:04:53Z)
Open-Source Acceleration of Stable-Diffusion.cpp Deployable on All Devices [28.774856591172902]
安定拡散(stable-diffusion) Turbo (Sd) は拡散モデルを加速する効率的な推論フレームワークとして現れる。本研究では、Winogradアルゴリズムを利用して2次元畳み込み処理を高速化するSdの最適化版を提案する。我々は、個々の畳み込み層に対して最大2.76倍のスピードアップと、全体の画像生成プロセスにおいて最大4.79倍の速度アップを示す。
論文参考訳（メタデータ） (2024-12-08T02:27:17Z)
LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。蒸留したLinFusionは,元のSDと同等以上の性能を示す。 SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文参考訳（メタデータ） (2024-09-03T17:54:39Z)
SwiftDiffusion: Efficient Diffusion Model Serving with Add-on Modules [9.361932702480361]
我々は,安定な拡散モデルとアドオンモジュールを用いて,高品質な画像を効率よく生成するシステムSwiftDiffusionを提案する。最先端のテキスト・ツー・イメージ配信システムと比較すると、SwiftDiffusionはレイテンシを最大5倍に削減し、スループットを最大2倍改善する。
論文参考訳（メタデータ） (2024-07-02T07:59:08Z)
FORA: Fast-Forward Caching in Diffusion Transformer Acceleration [39.51519525071639]
拡散変換器(DiT)は、高品質な画像やビデオを生成するための事実上の選択肢となっている。 Fast-FORward Caching (FORA) は拡散過程の反復特性を利用してDiTを加速するように設計されている。
論文参考訳（メタデータ） (2024-07-01T16:14:37Z)
AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising [49.785626309848276]
AsyncDiffは、複数のデバイスにまたがるモデル並列化を可能にする、普遍的でプラグアンドプレイのアクセラレーションスキームである。安定拡散 v2.1 では、AsyncDiff は2.7倍の速度アップと4.0倍のスピードアップを実現し、CLIPスコアの 0.38 をわずかに削減した。我々の実験は、AsyncDiffがビデオ拡散モデルに容易に適用でき、性能を向上できることを示した。
論文参考訳（メタデータ） (2024-06-11T03:09:37Z)
Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する既存の二項化法では性能が著しく低下する。画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文参考訳（メタデータ） (2024-06-09T10:30:25Z)
DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference [23.49242865222089]
本稿では,最大2.3倍高いスループット,平均2倍のレイテンシ,最大3.7倍のテールレイテンシを実現するシステムであるDeepSpeed-FastGenを紹介する。我々は、DeepSpeed-MIIとDeepSpeed-Inferenceの相乗的組み合わせを利用して、大規模言語モデルのための効率的で使いやすいサービスシステムを提供する。
論文参考訳（メタデータ） (2024-01-09T06:49:40Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
LCM-LoRA: A Universal Stable-Diffusion Acceleration Module [52.8517132452467]
LCM(Latent Consistency Models)は、テキストから画像への生成タスクの高速化において、優れたパフォーマンスを実現している。本報告はLRA蒸留を大型の安定拡散モデルに適用することによりLCMの可能性をさらに拡張する。 LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。
論文参考訳（メタデータ） (2023-11-09T18:04:15Z)
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。 Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文参考訳（メタデータ） (2023-04-17T17:57:06Z)
Wavelet Diffusion Models are fast and scalable Image Generators [3.222802562733787]
拡散モデルは高忠実度画像生成のための強力な解であり、多くの状況においてGANを超える。最近のDiffusionGAN法は、サンプリングステップの数を数千から数に減らして、モデルの実行時間を著しく短縮するが、その速度はGANよりもかなり遅れている。本稿では,新しいウェーブレット拡散方式を提案することにより,速度ギャップを低減することを目的とする。我々は、ウェーブレット分解により、画像と特徴レベルの両方から低周波数成分を抽出し、これらの成分を適応的に処理し、良好な生成品質を維持しながら高速に処理する。
論文参考訳（メタデータ） (2022-11-29T12:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。