論文の概要: KDC-Diff: A Latent-Aware Diffusion Model with Knowledge Retention for Memory-Efficient Image Generation
- arxiv url: http://arxiv.org/abs/2505.06995v2
- Date: Tue, 30 Sep 2025 06:24:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.732364
- Title: KDC-Diff: A Latent-Aware Diffusion Model with Knowledge Retention for Memory-Efficient Image Generation
- Title(参考訳): KDC-Diff: メモリ効率の良い画像生成のための知識保持を伴う潜在認識拡散モデル
- Authors: Md. Naimur Asif Borno, Md Sakib Hossain Shovon, Asmaa Soliman Al-Moisheer, Mohammad Ali Moni,
- Abstract要約: KDC-Diffは、ハイパフォーマンスを維持しながら計算オーバーヘッドを大幅に削減するために設計された、新しくスケーラブルな生成フレームワークである。
本モデルでは,FID,CLIP,KID,LPIPSの指標に対して,パラメータ数,推論時間,FLOPの大幅な削減を実現し,高い性能を示す。
- 参考スコア(独自算出の注目度): 2.0250638970950905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing adoption of generative AI in real-world applications has exposed a critical bottleneck in the computational demands of diffusion-based text-to-image models. In this work, we propose KDC-Diff, a novel and scalable generative framework designed to significantly reduce computational overhead while maintaining high performance. At its core, KDC-Diff designs a structurally streamlined U-Net with a dual-layered knowledge distillation strategy to transfer semantic and structural representations from a larger teacher model. Moreover, a latent-space replay-based continual learning mechanism is incorporated to ensure stable generative performance across sequential tasks. Evaluated on benchmark datasets, our model demonstrates strong performance across FID, CLIP, KID, and LPIPS metrics while achieving substantial reductions in parameter count, inference time, and FLOPs. KDC-Diff offers a practical, lightweight, and generalizable solution for deploying diffusion models in low-resource environments, making it well-suited for the next generation of intelligent and resource-aware computing systems.
- Abstract(参考訳): 現実のアプリケーションにおける生成AIの採用の増加は、拡散ベースのテキスト・ツー・イメージモデルの計算要求において、重大なボトルネックを露呈している。
本研究では,KDC-Diffを提案する。KDC-Diffはハイパフォーマンスを維持しつつ,計算オーバーヘッドを大幅に削減する新しい,スケーラブルな生成フレームワークである。
KDC-Diffは、構造的に合理化されたU-Netを2層構造の知識蒸留戦略で設計し、より大規模な教師モデルから意味的および構造的表現を伝達する。
さらに、逐次的タスク間で安定した生成性能を確保するために、潜時空間のリプレイに基づく連続学習機構が組み込まれている。
ベンチマークデータを評価した結果,FID,CLIP,KID,LPIPSの指標に対して高い性能を示し,パラメータ数,推論時間,FLOPの大幅な削減を実現した。
KDC-Diffは、低リソース環境に拡散モデルをデプロイするための実用的で軽量で一般化可能なソリューションを提供する。
関連論文リスト
- Federated Learning of Low-Rank One-Shot Image Detection Models in Edge Devices with Scalable Accuracy and Compute Complexity [5.820612543019548]
LoRa-FLは、エッジデバイスにデプロイされた低ランクのワンショット画像検出モデルをトレーニングするために設計された。
低ランク適応手法をワンショット検出アーキテクチャに組み込むことで,計算と通信のオーバーヘッドを大幅に低減する。
論文 参考訳(メタデータ) (2025-04-23T08:40:44Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization [37.236005953016175]
LightGenは、画像生成モデルのための効率的なトレーニングパラダイムである。
最先端(SOTA)テキスト・ツー・イメージモデルから知識を抽出し、コンパクトなMasked Autoregressiveアーキテクチャに変換する。
実験では、LightGenがSOTAモデルに匹敵する画像生成品質を達成することを確認した。
論文 参考訳(メタデータ) (2025-03-11T16:58:02Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Improved Training Technique for Latent Consistency Models [18.617862678160243]
一貫性モデルは、単一のステップまたは複数のステップで高品質なサンプルを生成することができる。
画素空間と潜伏空間の統計的差異を解析し、潜伏データがしばしば非常にインパルス的な外れ値を含むことを発見した。
我々は,早期に拡散損失を導入し,さらに性能を高めるために最適な輸送(OT)結合を用いる。
論文 参考訳(メタデータ) (2025-02-03T15:25:58Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Efficient Degradation-aware Any Image Restoration [83.92870105933679]
我々は,低ランク体制下での学習者(DaLe)を用いた効率的なオールインワン画像復元システムである textitDaAIR を提案する。
モデルキャパシティを入力劣化に動的に割り当てることにより、総合学習と特定の学習を統合した効率的な復調器を実現する。
論文 参考訳(メタデータ) (2024-05-24T11:53:27Z) - Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。
提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。
我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文 参考訳(メタデータ) (2024-01-16T18:55:54Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。