論文の概要: Hollowed Net for On-Device Personalization of Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.01179v1
- Date: Sat, 02 Nov 2024 08:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:02.222444
- Title: Hollowed Net for On-Device Personalization of Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルのオンデバイスパーソナライズのためのホローネット
- Authors: Wonguk Cho, Seokeon Choi, Debasmit Das, Matthias Reisser, Taesup Kim, Sungrack Yun, Fatih Porikli,
- Abstract要約: 本稿では、デバイス上での主観的生成のための効率的なLoRAに基づくパーソナライズ手法を提案する。
提案手法はHollowed Netと呼ばれ,拡散U-Netのアーキテクチャを変更することにより,微調整時のメモリ効率を向上させる。
- 参考スコア(独自算出の注目度): 51.3915762595891
- License:
- Abstract: Recent advancements in text-to-image diffusion models have enabled the personalization of these models to generate custom images from textual prompts. This paper presents an efficient LoRA-based personalization approach for on-device subject-driven generation, where pre-trained diffusion models are fine-tuned with user-specific data on resource-constrained devices. Our method, termed Hollowed Net, enhances memory efficiency during fine-tuning by modifying the architecture of a diffusion U-Net to temporarily remove a fraction of its deep layers, creating a hollowed structure. This approach directly addresses on-device memory constraints and substantially reduces GPU memory requirements for training, in contrast to previous methods that primarily focus on minimizing training steps and reducing the number of parameters to update. Additionally, the personalized Hollowed Net can be transferred back into the original U-Net, enabling inference without additional memory overhead. Quantitative and qualitative analyses demonstrate that our approach not only reduces training memory to levels as low as those required for inference but also maintains or improves personalization performance compared to existing methods.
- Abstract(参考訳): 近年のテキスト・画像拡散モデルの進歩により、これらのモデルのパーソナライズにより、テキスト・プロンプトからカスタム画像を生成することが可能になった。
本稿では,リソース制約のあるデバイス上でのユーザ固有のデータを用いて,事前学習した拡散モデルを微調整する,デバイス上での主観的生成のための効率的なLoRAに基づくパーソナライズ手法を提案する。
本手法は, 拡散U-Netのアーキテクチャを改良し, 深い層の一部を一時的に除去し, 空洞構造を形成することにより, 微調整時のメモリ効率を向上させる。
このアプローチはデバイス上のメモリ制約に直接対処し、トレーニングのGPUメモリ要件を大幅に削減する。
さらに、パーソナライズされたHollowed Netは元のU-Netに転送可能で、追加のメモリオーバーヘッドなしに推論が可能である。
定量的および定性的な分析により,本手法はトレーニング記憶を推論に必要なレベルまで低下させるだけでなく,従来の手法に比べてパーソナライズ性能を維持・改善することを示した。
関連論文リスト
- Mining Your Own Secrets: Diffusion Classifier Scores for Continual Personalization of Text-to-Image Diffusion Models [39.46152582128077]
現実の世界では、ユーザーは複数の概念のモデルを一度に1つずつパーソナライズしたいと考えるかもしれない。
ほとんどのパーソナライズ手法は、新しい概念の獲得と以前の概念の維持のバランスを見つけることができない。
本稿では,テキスト・画像拡散モデルのパラメータ空間と関数空間の正規化を提案する。
論文 参考訳(メタデータ) (2024-10-01T13:54:29Z) - Iterative Ensemble Training with Anti-Gradient Control for Mitigating Memorization in Diffusion Models [20.550324116099357]
拡散モデルは、新規で高品質なサンプルを生成できることで知られている。
最近のメモリ緩和手法は、クロスモーダル生成タスクにおけるテキストモダリティ問題にのみ焦点をあてるか、あるいはデータ拡張戦略を利用するかのどちらかである。
本稿では,視覚的モダリティの観点からの拡散モデルのための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T02:19:30Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Prompt-Based Exemplar Super-Compression and Regeneration for
Class-Incremental Learning [22.676222987218555]
超圧縮再生法であるESCORTは、その量を大幅に増加させ、模範者の多様性を高める。
生成した例と実画像の領域ギャップを最小限に抑えるために,部分圧縮と拡散に基づくデータ拡張を提案する。
論文 参考訳(メタデータ) (2023-11-30T05:59:31Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Training Large-Vocabulary Neural Language Models by Private Federated
Learning for Resource-Constrained Devices [14.604785223644718]
Federated Learning(FL)は、デバイスに分散したデータを使ってモデルをトレーニングするテクニックである。
差分プライバシー(DP)は、機密データに対して正式なプライバシー保証を提供する。
ペイロードサイズを小さくすることでノイズを低減できる部分埋め込み更新(PEU)を提案する。
論文 参考訳(メタデータ) (2022-07-18T23:53:17Z) - Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep
Neural Network, a Survey [69.3939291118954]
最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。
モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。
この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
論文 参考訳(メタデータ) (2022-05-17T05:37:08Z) - Low-rank Gradient Approximation For Memory-Efficient On-device Training
of Deep Neural Network [9.753369031264532]
モバイルデバイス上で機械学習モデルをトレーニングすることは、モデルのプライバシと精度の両方を改善する可能性がある。
この目標を達成する上での大きな障害のひとつは、モバイルデバイスのメモリ制限である。
本稿では,低ランクパラメータ化を用いた深層ニューラルネットワークの勾配行列の近似手法を提案する。
論文 参考訳(メタデータ) (2020-01-24T05:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。