Fugu-MT 論文翻訳(概要): Efficient Image Deblurring Networks based on Diffusion Models

論文の概要: Efficient Image Deblurring Networks based on Diffusion Models

arxiv url: http://arxiv.org/abs/2401.05907v1
Date: Thu, 11 Jan 2024 13:35:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-12 14:41:15.946180
Title: Efficient Image Deblurring Networks based on Diffusion Models
Title（参考訳）: 拡散モデルに基づく効率的な画像分解ネットワーク
Authors: Kang Chen, Yuanjie Liu
Abstract要約: 本稿では,メモリ使用率を極端に低くすることで,これまでで最高の性能を実現するデフォーカスデブロアリングのためのスライディングウインドウモデルを紹介する。 Swintormerという名前のこの方法は拡散モデルを用いて、より詳細な画像の復元を支援する遅延前の特徴を生成する。
参考スコア（独自算出の注目度）: 8.58965934113221
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This article introduces a sliding window model for defocus deblurring that achieves the best performance to date with extremely low memory usage. Named Swintormer, the method utilizes a diffusion model to generate latent prior features that assist in restoring more detailed images. It also extends the sliding window strategy to specialized Transformer blocks for efficient inference. Additionally, we have further optimized Multiply-Accumulate operations (Macs). Compared to the currently top-performing GRL method, our Swintormer model drastically reduces computational complexity from 140.35 GMACs to 8.02 GMacs, while also improving the Signal-to-Noise Ratio (SNR) for defocus deblurring from 27.04 dB to 27.07 dB. This new method allows for the processing of higher resolution images on devices with limited memory, significantly expanding potential application scenarios. The article concludes with an ablation study that provides an in-depth analysis of the impact of each network module on final performance. The source code and model will be available at the following website: https://github.com/bnm6900030/swintormer.
Abstract（参考訳）: 本稿では,メモリ使用量が非常に少ない場合,これまでで最高の性能を実現するデフォーカスデブラリングのためのスライディングウィンドウモデルを紹介する。 Swintormerという名前のこの方法は拡散モデルを用いて、より詳細な画像の復元を支援する遅延前の特徴を生成する。また、効率的な推論のために、スライドウィンドウ戦略を特別なTransformerブロックに拡張する。さらに,Mac (Multiply-Accumulate Operations) も最適化した。現在最高性能のGRL法と比較して、Swintormerモデルは計算複雑性を140.35 GMACsから8.02 GMacsに大幅に削減し、デフォーカスを27.04 dBから27.07 dBにデフォーカスするSNR(Signal-to-Noise Ratio)を改善した。この新しい方法では、メモリ制限のあるデバイス上で高解像度画像を処理でき、潜在的なアプリケーションシナリオを大幅に拡張できる。この記事は、各ネットワークモジュールが最終的なパフォーマンスに与える影響を詳細に分析するアブレーション研究で締めくくります。ソースコードとモデルは以下のWebサイトで利用可能になる。

関連論文リスト

VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文参考訳（メタデータ） (2024-12-28T07:38:23Z)
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。 CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。 CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文参考訳（メタデータ） (2024-11-26T15:13:15Z)
Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文参考訳（メタデータ） (2024-01-16T18:55:54Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)
Prompt-Based Exemplar Super-Compression and Regeneration for Class-Incremental Learning [21.136513495039242]
PESCRは,その量を大幅に増加させ,模範者の多様性を高める新しいアプローチである。画像はビジュアルとテキストのプロンプトに圧縮され、元の画像の代わりに保存される。その後の段階では、拡散モデルにより様々な例が再生される。
論文参考訳（メタデータ） (2023-11-30T05:59:31Z)
HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文参考訳（メタデータ） (2023-09-11T05:17:55Z)
MOFA: A Model Simplification Roadmap for Image Restoration on Mobile Devices [17.54747506334433]
本稿では,展開前の画像復元モデルをさらに高速化するロードマップを提案する。提案手法は,PSNRとSSIMを増大させながら,ランタイムを最大13%削減し,パラメータ数を最大23%削減する。
論文参考訳（メタデータ） (2023-08-24T01:29:15Z)
Resolution Enhancement Processing on Low Quality Images Using Swin Transformer Based on Interval Dense Connection Strategy [1.5705307898493193]
Transformer-based method has demonstrated great performance for image super- resolution in the method based on the convolutional neural network (CNNs) この研究は、新しく設計されたアルゴリズムに従って異なるブロックを接続するインターバルDense Connection Strategyを提案する。本研究は、リアルタイムアプリケーションにおいて、低画質画像上でオブジェクト検出とリアルタイム画像の超解像を行うために、You Only Look Once(YOLOv8)モデルの最後のバージョンと提案モデルを適用した。
論文参考訳（メタデータ） (2023-03-16T10:01:12Z)
Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。提案手法は1dB以上で最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2022-05-09T17:36:58Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。