論文の概要: CDM-QTA: Quantized Training Acceleration for Efficient LoRA Fine-Tuning of Diffusion Model
- arxiv url: http://arxiv.org/abs/2504.07998v1
- Date: Tue, 08 Apr 2025 22:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:37.485994
- Title: CDM-QTA: Quantized Training Acceleration for Efficient LoRA Fine-Tuning of Diffusion Model
- Title(参考訳): CDM-QTA:拡散モデルの効率的なLoRAファインチューニングのための量子化トレーニング高速化
- Authors: Jinming Lu, Minghao She, Wendong Mao, Zhongfeng Wang,
- Abstract要約: カスタムアプリケーションのための微調整された大規模な拡散モデルは、かなりのパワーと時間を必要とする。
拡散モデルのローランド適応(LoRA)に特化した新しいトレーニングアクセラレータを開発した。
我々は,高モデル忠実度を維持しつつ,メモリ使用量や消費電力を大幅に削減する。
- 参考スコア(独自算出の注目度): 4.525120888093971
- License:
- Abstract: Fine-tuning large diffusion models for custom applications demands substantial power and time, which poses significant challenges for efficient implementation on mobile devices. In this paper, we develop a novel training accelerator specifically for Low-Rank Adaptation (LoRA) of diffusion models, aiming to streamline the process and reduce computational complexity. By leveraging a fully quantized training scheme for LoRA fine-tuning, we achieve substantial reductions in memory usage and power consumption while maintaining high model fidelity. The proposed accelerator features flexible dataflow, enabling high utilization for irregular and variable tensor shapes during the LoRA process. Experimental results show up to 1.81x training speedup and 5.50x energy efficiency improvements compared to the baseline, with minimal impact on image generation quality.
- Abstract(参考訳): カスタムアプリケーションのための微調整された大規模な拡散モデルには、相当なパワーと時間を要するため、モバイルデバイス上での効率的な実装には大きな課題が伴う。
本稿では,拡散モデルの低ランク適応(LoRA)に特化した新しいトレーニングアクセラレータを開発し,プロセスの合理化と計算複雑性の低減を目的としている。
LoRAファインチューニングのための完全量子化トレーニングスキームを利用することで,高モデル忠実度を維持しつつ,メモリ使用量や消費電力を大幅に削減する。
提案した加速器はフレキシブルなデータフローを備え、LoRAプロセス中に不規則なテンソル形状と可変なテンソル形状の高利用を可能にする。
実験の結果、トレーニングのスピードアップは1.81倍、エネルギー効率はベースラインに比べて5.50倍に向上し、画像生成の品質にはほとんど影響しない。
関連論文リスト
- Effortless Efficiency: Low-Cost Pruning of Diffusion Models [29.821803522137913]
本稿では,拡散モデルに対するモデルに依存しない構造解析フレームワークを提案する。
最終復号化潜水剤の品質を保った効率的な刈り出しを確保するため, 拡散過程全体にわたる新しいエンドツーエンドの刈り出し目標を設計する。
最新のU-Net拡散モデル SDXL と拡散変換器 (FLUX) による結果から,本手法は性能劣化を最小限に抑え,20%のパラメータを効果的に生成できることを示した。
論文 参考訳(メタデータ) (2024-12-03T21:37:50Z) - Fast LiDAR Data Generation with Rectified Flows [3.297182592932918]
本稿では,LiDARデータの高速かつ高忠実な生成モデルであるR2Flowを提案する。
本手法は,直線軌道を学習する整流流に基づく。
また、LiDAR領域の画像表現と反射率測定を効率的に行うためのトランスフォーマーベースモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:10:53Z) - Efficient Point Cloud Classification via Offline Distillation Framework and Negative-Weight Self-Distillation Technique [46.266960248570086]
本稿では,教師モデルと生徒モデルの両方の同時ロードを回避する,革新的なオフライン記録戦略を提案する。
このアプローチは教師モデルに多数の追加サンプルを投入し、データ拡張パラメータと対応するロジット出力の両方を記録する。
実験により, 提案した蒸留方式により, 学生モデルが最先端モデルに匹敵する性能を達成できることが実証された。
論文 参考訳(メタデータ) (2024-09-03T16:12:12Z) - Expressive and Generalizable Low-rank Adaptation for Large Models via Slow Cascaded Learning [55.5715496559514]
LoRA Slow Cascade Learning (LoRASC)は、LoRAの表現性と一般化能力を高めるために設計された革新的な技術である。
提案手法は,混合低ランク適応を可能にするカスケード学習戦略により表現性を増強し,複雑なパターンをキャプチャするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-07-01T17:28:59Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - A Fast and Efficient Conditional Learning for Tunable Trade-Off between
Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。
既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。
特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文 参考訳(メタデータ) (2022-03-28T19:25:36Z) - Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文 参考訳(メタデータ) (2021-04-04T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。