論文の概要: Image Deblurring by Exploring In-depth Properties of Transformer
- arxiv url: http://arxiv.org/abs/2303.15198v2
- Date: Sat, 27 Jan 2024 05:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 23:08:27.782315
- Title: Image Deblurring by Exploring In-depth Properties of Transformer
- Title(参考訳): 変圧器の深部特性探索による画像劣化
- Authors: Pengwei Liang, Junjun Jiang, Xianming Liu, Jiayi Ma
- Abstract要約: 我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
- 参考スコア(独自算出の注目度): 86.7039249037193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image deblurring continues to achieve impressive performance with the
development of generative models. Nonetheless, there still remains a
displeasing problem if one wants to improve perceptual quality and quantitative
scores of recovered image at the same time. In this study, drawing inspiration
from the research of transformer properties, we introduce the pretrained
transformers to address this problem. In particular, we leverage deep features
extracted from a pretrained vision transformer (ViT) to encourage recovered
images to be sharp without sacrificing the performance measured by the
quantitative metrics. The pretrained transformer can capture the global
topological relations (i.e., self-similarity) of image, and we observe that the
captured topological relations about the sharp image will change when blur
occurs. By comparing the transformer features between recovered image and
target one, the pretrained transformer provides high-resolution blur-sensitive
semantic information, which is critical in measuring the sharpness of the
deblurred image. On the basis of the advantages, we present two types of novel
perceptual losses to guide image deblurring. One regards the features as
vectors and computes the discrepancy between representations extracted from
recovered image and target one in Euclidean space. The other type considers the
features extracted from an image as a distribution and compares the
distribution discrepancy between recovered image and target one. We demonstrate
the effectiveness of transformer properties in improving the perceptual quality
while not sacrificing the quantitative scores (PSNR) over the most competitive
models, such as Uformer, Restormer, and NAFNet, on defocus deblurring and
motion deblurring tasks.
- Abstract(参考訳): 画像デブラリングは生成モデルの開発によって印象的な性能を保ち続けている。
それでも、回復した画像の知覚的品質と定量的スコアを同時に向上させたい場合、いまだに不快な問題が残っている。
本研究では, 変圧器特性の研究から着想を得て, 予め学習した変圧器を導入し, この問題に対処する。
特に,事前訓練された視覚トランスフォーマ(vit)から抽出された深部特徴を活用して,定量的測定で測定した性能を犠牲にすることなく,復元画像のシャープ化を奨励する。
事前学習した変換器は画像のグローバルなトポロジカルな関係(すなわち自己相似性)を捉えることができ、鮮明な画像に関する捕獲されたトポロジカルな関係は、ぼかしが発生すると変化する。
復元画像と目標画像とのトランスフォーマー特性を比較することにより、予め訓練されたトランスフォーマーは高分解能のぼやけ感のある意味情報を提供する。
優位性に基づいて、画像の劣化をガイドする2種類の新しい知覚的損失を提示する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
他の型は、画像から抽出した特徴を分布とみなし、回収した画像と対象画像との分布差を比較する。
そこで本研究では,uformer,restormer,nafnetなど,最も競争の激しいモデルに対する定量的スコア(psnr)を犠牲にすることなく,知覚品質向上におけるトランスフォーマ特性の有効性を実証する。
関連論文リスト
- SwinStyleformer is a favorable choice for image inversion [2.8115030277940947]
本稿では,SwinStyleformerと呼ばれるトランスフォーマー構造インバージョンネットワークを提案する。
実験の結果、トランスフォーマーのバックボーンによるインバージョンネットワークは、画像の反転に成功しなかった。
論文 参考訳(メタデータ) (2024-06-19T02:08:45Z) - Blind Image Quality Assessment via Transformer Predicted Error Map and
Perceptual Quality Token [19.67014524146261]
近年,非参照画像品質評価(NR-IQA)が注目されている。
予測された客観的誤差マップと知覚的品質トークンを用いたTransformerベースのNR-IQAモデルを提案する。
提案手法は, 実画像データベースと合成画像データベースの両方において, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-05-16T11:17:54Z) - Invertible Rescaling Network and Its Extensions [118.72015270085535]
本研究では,新たな視点から双方向の劣化と復元をモデル化する,新しい可逆的枠組みを提案する。
我々は、有効な劣化画像を生成し、失われたコンテンツの分布を変換する可逆モデルを開発する。
そして、ランダムに描画された潜在変数とともに、生成された劣化画像に逆変換を適用することにより、復元可能とする。
論文 参考訳(メタデータ) (2022-10-09T06:58:58Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Training Vision Transformers for Image Retrieval [32.09708181236154]
我々は、画像記述子を生成するために視覚変換器を採用し、結果のモデルをメートル法学習目標で訓練する。
コンボリューションに基づくアプローチよりも,トランスフォーマーの一貫性と顕著な改善が示された。
論文 参考訳(メタデータ) (2021-02-10T18:56:41Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。