論文の概要: NanoSD: Edge Efficient Foundation Model for Real Time Image Restoration
- arxiv url: http://arxiv.org/abs/2601.09823v1
- Date: Wed, 14 Jan 2026 19:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.87384
- Title: NanoSD: Edge Efficient Foundation Model for Real Time Image Restoration
- Title(参考訳): NanoSD: リアルタイム画像復元のためのエッジ効率的な基礎モデル
- Authors: Subhajit Sanyal, Srinivas Soumitri Miriyala, Akshay Janardan Bankar, Sravanth Kodavanti, Harshit, Abhishek Ameta, Shreyas Pandith, Amit Satish Unde,
- Abstract要約: NanoSDは、エッジデバイス上でのリアルタイム視覚生成と復元に適した汎用拡散基盤モデルファミリーである。
アーキテクチャのバランス、機能ルーティング、潜在空間の保存が、デバイス上での真のレイテンシをいかに形作るかを示す。
ドロップインバックボーンとして使用する場合、NanoSDは画像超解像、画像劣化、顔の復元、単眼深度推定など、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 5.055063272511308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent diffusion models such as Stable Diffusion 1.5 offer strong generative priors that are highly valuable for image restoration, yet their full pipelines remain too computationally heavy for deployment on edge devices. Existing lightweight variants predominantly compress the denoising U-Net or reduce the diffusion trajectory, which disrupts the underlying latent manifold and limits generalization beyond a single task. We introduce NanoSD, a family of Pareto-optimal diffusion foundation models distilled from Stable Diffusion 1.5 through network surgery, feature-wise generative distillation, and structured architectural scaling jointly applied to the U-Net and the VAE encoder-decoder. This full-pipeline co-design preserves the generative prior while producing models that occupy distinct operating points along the accuracy-latency-size frontier (e.g., 130M-315M parameters, achieving real-time inference down to 20ms on mobile-class NPUs). We show that parameter reduction alone does not correlate with hardware efficiency, and we provide an analysis revealing how architectural balance, feature routing, and latent-space preservation jointly shape true on-device latency. When used as a drop-in backbone, NanoSD enables state-of-the-art performance across image super-resolution, image deblurring, face restoration, and monocular depth estimation, outperforming prior lightweight diffusion models in both perceptual quality and practical deployability. NanoSD establishes a general-purpose diffusion foundation model family suitable for real-time visual generation and restoration on edge devices.
- Abstract(参考訳): 安定拡散1.5のような遅延拡散モデルは、画像復元に非常に有用な強力な生成前駆体を提供するが、その完全なパイプラインはエッジデバイスへの展開には計算的に重すぎる。
既存の軽量な変種は、主に縮退するU-ネットを圧縮するか、拡散軌道を減少させ、基礎となる潜在多様体を乱し、単一のタスクを超えて一般化を制限する。
安定拡散1.5号から抽出したパレート最適拡散基礎モデルのファミリーであるNanoSDについて,ネットワーク手術,特徴量生成蒸留,U-NetとVAEエンコーダデコーダを併用した構造的スケーリングについて紹介する。
この全パイプラインの共設計は、精度-レイテンシ-サイズフロンティアに沿って異なる動作点を占有するモデル(例えば130M-315Mパラメータ、モバイルクラスのNPUで20msまでのリアルタイム推論を実現する)を作成しながら、生成前の状態を保存している。
パラメータの削減だけではハードウェアの効率と相関しないことを示すとともに,アーキテクチャバランス,特徴ルーティング,潜在空間保存がデバイス上でのレイテンシを両立させる様子を解析する。
ドロップインバックボーンとして使用すると、NanoSDは画像の超解像、画像の劣化、顔の復元、単眼深度推定といった最先端のパフォーマンスを実現し、知覚的品質と実用的デプロイ性の両方において、事前の軽量拡散モデルよりも優れている。
NanoSDは、エッジデバイス上でのリアルタイム視覚生成と復元に適した汎用拡散基盤モデルファミリーを確立する。
関連論文リスト
- Bridging Robustness and Efficiency: Real-Time Low-Light Enhancement via Attention U-Net GAN [0.0]
エッジ展開可能な速度で生成レベルのテクスチャを復元するハイブリッドな注意型U-Net GANを提案する。
提案手法は,効率的なモデルのうち,クラス別LPIPSスコアが0.112であることを示す。
これは遅延拡散モデルよりも40倍のスピードアップを示し、我々のアプローチはほぼリアルタイムなアプリケーションに適している。
論文 参考訳(メタデータ) (2026-01-10T10:39:22Z) - DiP: Taming Diffusion Models in Pixel Space [91.51011771517683]
Diffusion Transformer (DiT) バックボーンは、効率的なグローバル構造構築のために大きなパッチで動作する。
共同トレーニングされた軽量パッチディーラーヘッドは、コンテキスト機能を活用して、きめ細かいローカル詳細を復元する。
論文 参考訳(メタデータ) (2025-11-24T06:55:49Z) - ScaleDiff: Higher-Resolution Image Synthesis via Efficient and Model-Agnostic Diffusion [7.233066974580282]
テキストと画像の拡散モデルは、トレーニングの解像度を超える画像を生成する際に、しばしば劣化した性能を示す。
最近のトレーニングフリーな手法は、この制限を緩和することができるが、かなりの計算を必要とする場合や、最近の拡散変換器モデルと互換性がない場合が多い。
本研究では,事前学習した拡散モデルの解法を,追加の訓練なしに拡張するためのモデル非依存かつ高効率なフレームワークであるScaleDiffを提案する。
論文 参考訳(メタデータ) (2025-10-29T17:17:32Z) - Boosting Fidelity for Pre-Trained-Diffusion-Based Low-Light Image Enhancement via Condition Refinement [63.54516423266521]
事前学習拡散ベース(PTDB)法は、しばしばコンテンツ忠実さを犠牲にして知覚的リアリズムを高める。
本稿では,事前学習した拡散モデルにおける条件付けのための新しい最適化手法を提案する。
我々のアプローチはプラグアンドプレイであり、より効率的な制御を提供するために既存の拡散ネットワークにシームレスに統合される。
論文 参考訳(メタデータ) (2025-10-20T02:40:06Z) - ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration [75.0053551643052]
本稿では、高解像度画像復元のための効率性、スケーラビリティ、長距離モデリングを向上する新しいフレームワークZipIRを紹介する。
ZipIRは画像32xを圧縮する高度に圧縮された潜在表現を使用し、空間トークンの数を効果的に削減する。
ZipIRは既存の拡散ベースの手法を超越し、高度に劣化した入力からの高解像度画像の復元において、未整合の速度と品質を提供する。
論文 参考訳(メタデータ) (2025-04-11T14:49:52Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。
MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文 参考訳(メタデータ) (2025-02-05T18:42:04Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。