論文の概要: Replay-Based Continual Learning with Dual-Layered Distillation and a Streamlined U-Net for Efficient Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.06995v1
- Date: Sun, 11 May 2025 14:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.151775
- Title: Replay-Based Continual Learning with Dual-Layered Distillation and a Streamlined U-Net for Efficient Text-to-Image Generation
- Title(参考訳): 効率的なテキスト・画像生成のための2層蒸留と合理化U-Netによるリプレイベース連続学習
- Authors: Md. Naimur Asif Borno, Md Sakib Hossain Shovon, Asmaa Soliman Al-Moisheer, Mohammad Ali Moni,
- Abstract要約: KDC-Diffは、画像品質を維持しながら効率を高める新しい安定拡散フレームワークである。
Oxford Flowers and Butterflies & Moths 100種データセットの最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 2.4280350854512673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in text-to-image diffusion models are hindered by high computational demands, limiting accessibility and scalability. This paper introduces KDC-Diff, a novel stable diffusion framework that enhances efficiency while maintaining image quality. KDC-Diff features a streamlined U-Net architecture with nearly half the parameters of the original U-Net (482M), significantly reducing model complexity. We propose a dual-layered distillation strategy to ensure high-fidelity generation, transferring semantic and structural insights from a teacher to a compact student model while minimizing quality degradation. Additionally, replay-based continual learning is integrated to mitigate catastrophic forgetting, allowing the model to retain prior knowledge while adapting to new data. Despite operating under extremely low computational resources, KDC-Diff achieves state-of-the-art performance on the Oxford Flowers and Butterflies & Moths 100 Species datasets, demonstrating competitive metrics such as FID, CLIP, and LPIPS. Moreover, it significantly reduces inference time compared to existing models. These results establish KDC-Diff as a highly efficient and adaptable solution for text-to-image generation, particularly in computationally constrained environments.
- Abstract(参考訳): テキストと画像の拡散モデルの最近の進歩は、高い計算要求、アクセシビリティとスケーラビリティの制限によって妨げられている。
KDC-Diffは画像品質を維持しながら効率を向上する新しい安定拡散フレームワークである。
KDC-Diff は、オリジナルの U-Net (482M) のパラメータの半分近くを持つ合理化された U-Net アーキテクチャを特徴としている。
品質劣化を最小限に抑えつつ,教師からコンパクトな学生モデルに意味的・構造的洞察を伝達し,高忠実度を確保できる2層蒸留方式を提案する。
さらに、リプレイベースの連続学習は破滅的な忘れを緩和するために統合され、新しいデータに適応しながらモデルが事前の知識を保持することができる。
非常に低い計算リソースの下で運用されているにもかかわらず、KDC-DiffはOxford Flowers and Butterflies & Moths 100 Speciesデータセットの最先端のパフォーマンスを達成し、FID、CLIP、LPIPSといった競合メトリクスを実証している。
さらに、既存のモデルに比べて推論時間を大幅に短縮する。
これらの結果は、KDC-Diffを、特に計算に制約のある環境で、テキスト・画像生成のための高効率で適応可能なソリューションとして確立する。
関連論文リスト
- Federated Learning of Low-Rank One-Shot Image Detection Models in Edge Devices with Scalable Accuracy and Compute Complexity [5.820612543019548]
LoRa-FLは、エッジデバイスにデプロイされた低ランクのワンショット画像検出モデルをトレーニングするために設計された。
低ランク適応手法をワンショット検出アーキテクチャに組み込むことで,計算と通信のオーバーヘッドを大幅に低減する。
論文 参考訳(メタデータ) (2025-04-23T08:40:44Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization [37.236005953016175]
LightGenは、画像生成モデルのための効率的なトレーニングパラダイムである。
最先端(SOTA)テキスト・ツー・イメージモデルから知識を抽出し、コンパクトなMasked Autoregressiveアーキテクチャに変換する。
実験では、LightGenがSOTAモデルに匹敵する画像生成品質を達成することを確認した。
論文 参考訳(メタデータ) (2025-03-11T16:58:02Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Efficient Degradation-aware Any Image Restoration [83.92870105933679]
我々は,低ランク体制下での学習者(DaLe)を用いた効率的なオールインワン画像復元システムである textitDaAIR を提案する。
モデルキャパシティを入力劣化に動的に割り当てることにより、総合学習と特定の学習を統合した効率的な復調器を実現する。
論文 参考訳(メタデータ) (2024-05-24T11:53:27Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。