論文の概要: Efficient Personalization of Quantized Diffusion Model without Backpropagation
- arxiv url: http://arxiv.org/abs/2503.14868v1
- Date: Wed, 19 Mar 2025 03:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:35.371988
- Title: Efficient Personalization of Quantized Diffusion Model without Backpropagation
- Title(参考訳): バックプロパゲーションのない量子拡散モデルの効率的パーソナライズ
- Authors: Hoigi Seo, Wongi Jeong, Kyungryeol Lee, Se Young Chun,
- Abstract要約: 拡散モデルは、訓練、微調整、推論のために広範囲な計算とメモリ資源を必要とする。
テキスト・インバージョンによるパーソナライズによる拡散モデルの定量化により,この問題に対処する。
本手法は,前向きパスのみによる安定拡散をパーソナライズするための画像およびテキストアライメントスコアにおける先行手法と同等の性能を実現する。
- 参考スコア(独自算出の注目度): 9.875073051988057
- License:
- Abstract: Diffusion models have shown remarkable performance in image synthesis, but they demand extensive computational and memory resources for training, fine-tuning and inference. Although advanced quantization techniques have successfully minimized memory usage for inference, training and fine-tuning these quantized models still require large memory possibly due to dequantization for accurate computation of gradients and/or backpropagation for gradient-based algorithms. However, memory-efficient fine-tuning is particularly desirable for applications such as personalization that often must be run on edge devices like mobile phones with private data. In this work, we address this challenge by quantizing a diffusion model with personalization via Textual Inversion and by leveraging a zeroth-order optimization on personalization tokens without dequantization so that it does not require gradient and activation storage for backpropagation that consumes considerable memory. Since a gradient estimation using zeroth-order optimization is quite noisy for a single or a few images in personalization, we propose to denoise the estimated gradient by projecting it onto a subspace that is constructed with the past history of the tokens, dubbed Subspace Gradient. In addition, we investigated the influence of text embedding in image generation, leading to our proposed time steps sampling, dubbed Partial Uniform Timestep Sampling for sampling with effective diffusion timesteps. Our method achieves comparable performance to prior methods in image and text alignment scores for personalizing Stable Diffusion with only forward passes while reducing training memory demand up to $8.2\times$.
- Abstract(参考訳): 拡散モデルは画像合成において顕著な性能を示したが、訓練、微調整、推論のために広範な計算資源と記憶資源を必要とする。
高度な量子化技術は推論におけるメモリ使用量の最小化に成功しているが、これらの量子化モデルの訓練と微調整は、勾配の正確な計算と勾配に基づくアルゴリズムのバックプロパゲーションのために、おそらくは大きなメモリを必要とする。
しかし、メモリ効率のよい微調整は、個人化のようなアプリケーションでは特に望ましい。
本研究では,テキスト・インバージョンによるパーソナライズによる拡散モデルの定量化と,デクォート化のないパーソナライズトークンのゼロ階最適化を活用して,大量のメモリを消費するバックプロパゲーションのためのグラデーションやアクティベーションストレージを必要としないようにすることで,この問題に対処する。
ゼロ階最適化を用いた勾配推定は、パーソナライズにおける単一または少数の画像に対して非常にノイズが多いため、サブスペースグラディエント(Subspace Gradient)と呼ばれる過去のトークンの履歴で構築された部分空間に投影することで、推定勾配をノイズ化することを提案する。
さらに,画像生成におけるテキスト埋め込みの影響について検討し,有効拡散時間を用いたサンプリングのための部分的一様時間ステップサンプリング(Partial Uniform Timestep Smpling)を提案する。
本手法は,画像とテキストのアライメントスコアにおいて,前処理のみの安定拡散をパーソナライズし,トレーニングメモリの需要を最大8.2\times$まで低減する。
関連論文リスト
- Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization [34.53986517177061]
本稿では, 既存の拡散式蒸留法に対する新しい枠組みを提案し, 生成ではなく拡散モデルを用いて選択する。
提案手法は,入力画像とテキストプロンプトに基づいて拡散モデルから発生するノイズを予測し,各ペアの損失を算出する。
この合理化フレームワークは単一段階の蒸留プロセスを実現するとともに,我々の手法が様々なメトリクスにわたって最先端の手法より優れていることを示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-12-13T08:34:46Z) - Hollowed Net for On-Device Personalization of Text-to-Image Diffusion Models [51.3915762595891]
本稿では、デバイス上での主観的生成のための効率的なLoRAに基づくパーソナライズ手法を提案する。
提案手法はHollowed Netと呼ばれ,拡散U-Netのアーキテクチャを変更することにより,微調整時のメモリ効率を向上させる。
論文 参考訳(メタデータ) (2024-11-02T08:42:48Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Gradient-Free Textual Inversion [34.474779413929426]
プロセス推論モデル推論モデルにのみアクセスすることで、テキストインバージョンを最適化できるかどうかを疑問視するのは自然なことです。
反復的進化戦略において,連続的なテキストの反転を最適化するための進化戦略を導入する。
提案手法を応用したテキスト・画像モデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2023-04-12T12:46:27Z) - Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。
分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文 参考訳(メタデータ) (2023-01-09T17:32:00Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。