論文の概要: Edge-SD-SR: Low Latency and Parameter Efficient On-device Super-Resolution with Stable Diffusion via Bidirectional Conditioning
- arxiv url: http://arxiv.org/abs/2412.06978v1
- Date: Mon, 09 Dec 2024 20:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:25.509572
- Title: Edge-SD-SR: Low Latency and Parameter Efficient On-device Super-Resolution with Stable Diffusion via Bidirectional Conditioning
- Title(参考訳): Edge-SD-SR:双方向条件による安定拡散による低レイテンシ・パラメータのオンデバイス超解法
- Authors: Mehdi Noroozi, Isma Hadji, Victor Escorcia, Anestis Zaganidis, Brais Martinez, Georgios Tzimiropoulos,
- Abstract要約: We introduced Edge-SD-SR, the first parameter efficient and low latency diffusion model for image super- resolution。
Edge-SD-SRはUNet、エンコーダ、デコーダを含む169Mのパラメータで構成され、複雑さはわずか142GFLOPである。
We show that Edge-SD-SR match or moreforms state-of-the-art SR approach on the most established SR benchmarks。
- 参考スコア(独自算出の注目度): 27.704086355320907
- License:
- Abstract: There has been immense progress recently in the visual quality of Stable Diffusion-based Super Resolution (SD-SR). However, deploying large diffusion models on computationally restricted devices such as mobile phones remains impractical due to the large model size and high latency. This is compounded for SR as it often operates at high res (e.g. 4Kx3K). In this work, we introduce Edge-SD-SR, the first parameter efficient and low latency diffusion model for image super-resolution. Edge-SD-SR consists of ~169M parameters, including UNet, encoder and decoder, and has a complexity of only ~142 GFLOPs. To maintain a high visual quality on such low compute budget, we introduce a number of training strategies: (i) A novel conditioning mechanism on the low resolution input, coined bidirectional conditioning, which tailors the SD model for the SR task. (ii) Joint training of the UNet and encoder, while decoupling the encodings of the HR and LR images and using a dedicated schedule. (iii) Finetuning the decoder using the UNet's output to directly tailor the decoder to the latents obtained at inference time. Edge-SD-SR runs efficiently on device, e.g. it can upscale a 128x128 patch to 512x512 in 38 msec while running on a Samsung S24 DSP, and of a 512x512 to 2048x2048 (requiring 25 model evaluations) in just ~1.1 sec. Furthermore, we show that Edge-SD-SR matches or even outperforms state-of-the-art SR approaches on the most established SR benchmarks.
- Abstract(参考訳): 安定拡散に基づく超解像(SD-SR)の視覚的品質は近年著しく進歩している。
しかし、携帯電話のような計算量制限のあるデバイスに大規模な拡散モデルを展開することは、大きなモデルサイズと高いレイテンシのため、依然として現実的ではない。
これは、しばしば高反発(例えば4Kx3K)で動くため、SRのために合成される。
本稿では,画像超解像のためのパラメータ効率と低遅延拡散モデルであるEdge-SD-SRを提案する。
Edge-SD-SRはUNet、エンコーダ、デコーダを含む約169Mのパラメータで構成され、複雑さはわずか142GFLOPである。
このような低い計算予算で高い視覚的品質を維持するために、いくつかのトレーニング戦略を導入します。
i) SRタスクのSDモデルを調整した低分解能入力における新しい条件付け機構である双方向条件付け。
(II)UNetとエンコーダの共同訓練は、HRとLRの画像の符号化を分離し、専用のスケジュールを用いて行う。
3)UNetの出力を使用してデコーダを微調整し、推論時に得られた遅延子を直接調整する。
エッジSD-SRは、Samsung S24 DSPで実行中の128x128パッチを38msecで512x512にアップスケールでき、わずか1.1秒で512x512から2048x2048(25モデル評価の要求)を要求できる。
さらに、Edge-SD-SRは、最も確立されたSRベンチマークにおいて、最先端のSRアプローチよりも優れていることを示す。
関連論文リスト
- Latent Diffusion, Implicit Amplification: Efficient Continuous-Scale Super-Resolution for Remote Sensing Images [7.920423405957888]
E$2$DiffSRは、最先端のSR手法と比較して、客観的な指標と視覚的品質を達成する。
拡散に基づくSR法の推論時間を非拡散法と同程度のレベルに短縮する。
論文 参考訳(メタデータ) (2024-10-30T09:14:13Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Image Super-resolution Via Latent Diffusion: A Sampling-space Mixture Of
Experts And Frequency-augmented Decoder Approach [17.693287544860638]
事前訓練されたテキスト画像モデルにより画像超解像の潜時拡散が改善した。
ラテントベースの手法では、特徴エンコーダを使用して画像を変換し、コンパクトなラテント空間でSR画像生成を実装する。
遅延空間から画素空間への周波数成分を増大させる周波数補償モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:39:25Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Compiler-Aware Neural Architecture Search for On-Mobile Real-time
Super-Resolution [48.13296296287587]
適応SRブロックを用いた深度探索と層間幅探索を行うコンパイラ対応SRニューラルアーキテクチャサーチ(NAS)フレームワークを提案する。
我々は,モバイルプラットフォームのGPU/DSP上でのSR性能と競合する720pの解像度を実現するために,リアルタイムSR推論を実現する。
論文 参考訳(メタデータ) (2022-07-25T23:59:19Z) - Extremely Lightweight Quantization Robust Real-Time Single-Image Super
Resolution for Mobile Devices [0.0]
シングルイメージ・スーパーレゾリューション(SISR)は古典的なコンピュータビジョンの問題であり、数十年にわたって研究されてきた。
SISRに関する最近の研究は、ディープラーニングの方法論に焦点を合わせ、最先端の結果を得る。
ハードウェア(Synaptics Dolphin NPU)を意識した超軽量量子化ロバストリアルタイム超解像ネットワーク(XLSR)を提案する。
論文 参考訳(メタデータ) (2021-05-21T11:29:48Z) - SplitSR: An End-to-End Approach to Super-Resolution on Mobile Devices [7.72178128781302]
SplitSRと呼ばれる新しいハイブリッドアーキテクチャを用いて、デバイス上の超解像に対する最先端のレイテンシと精度を示す。
SplitSRは標準の畳み込みブロックと軽量な残留ブロックからなるハイブリッド設計である。
私たちのモデルをZoomSRというアプリでスマートフォンにデプロイし、デバイス上のディープラーニングベースのSRの最初のインスタンスをデモします。
論文 参考訳(メタデータ) (2021-01-20T06:47:41Z) - DynaVSR: Dynamic Adaptive Blind Video Super-Resolution [60.154204107453914]
DynaVSRは、現実世界のビデオSRのための新しいメタラーニングベースのフレームワークである。
様々な種類の合成ボケカーネルを備えたマルチフレームダウンスケーリングモジュールをトレーニングし、入力認識適応のためのビデオSRネットワークとシームレスに結合する。
実験結果から,DynaVSRは最先端のビデオSRモデルの性能を一定に向上することがわかった。
論文 参考訳(メタデータ) (2020-11-09T15:07:32Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。