論文の概要: Image Reconstruction using Enhanced Vision Transformer
- arxiv url: http://arxiv.org/abs/2307.05616v1
- Date: Tue, 11 Jul 2023 02:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 15:55:55.961049
- Title: Image Reconstruction using Enhanced Vision Transformer
- Title(参考訳): 拡張視覚変換器を用いた画像再構成
- Authors: Nikhil Verma, Deepkamal Kaur, Lydia Chau
- Abstract要約: 画像のデノイング,デブロアリング,インペイントといったタスクに使用できる新しい画像再構成フレームワークを提案する。
このプロジェクトで提案されるモデルは、2次元画像を入力として取り込んで埋め込みを出力するビジョントランスフォーマー(ViT)に基づいている。
モデル再構築機能を改善するために,フレームワークに4つの最適化手法を組み込んだ。
- 参考スコア(独自算出の注目度): 0.08594140167290097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Removing noise from images is a challenging and fundamental problem in the
field of computer vision. Images captured by modern cameras are inevitably
degraded by noise which limits the accuracy of any quantitative measurements on
those images. In this project, we propose a novel image reconstruction
framework which can be used for tasks such as image denoising, deblurring or
inpainting. The model proposed in this project is based on Vision Transformer
(ViT) that takes 2D images as input and outputs embeddings which can be used
for reconstructing denoised images. We incorporate four additional optimization
techniques in the framework to improve the model reconstruction capability,
namely Locality Sensitive Attention (LSA), Shifted Patch Tokenization (SPT),
Rotary Position Embeddings (RoPE) and adversarial loss function inspired from
Generative Adversarial Networks (GANs). LSA, SPT and RoPE enable the
transformer to learn from the dataset more efficiently, while the adversarial
loss function enhances the resolution of the reconstructed images. Based on our
experiments, the proposed architecture outperforms the benchmark U-Net model by
more than 3.5\% structural similarity (SSIM) for the reconstruction tasks of
image denoising and inpainting. The proposed enhancements further show an
improvement of \textasciitilde5\% SSIM over the benchmark for both tasks.
- Abstract(参考訳): 画像からノイズを取り除くことは、コンピュータビジョンの分野で挑戦的で根本的な問題である。
現代のカメラで撮影された画像はノイズによって必然的に劣化し、画像の定量的測定の精度が制限される。
そこで本研究では,画像のデノイジング,デブラリング,インパインティングなどのタスクに使用できる新しい画像再構成フレームワークを提案する。
このプロジェクトで提案されたモデルは、視覚トランスフォーマー(vit)に基づいて2d画像を入力とし、分節化画像の再構成に使用できる埋め込みを出力する。
そこで我々は, モデル再構成機能を改善するために, 局所性感性注意(LSA), シフトパッチトークン化(SPT), 回転位置埋め込み(RoPE), GAN(Generative Adversarial Networks)にインスパイアされた対向損失関数の4つの最適化手法を組み込んだ。
LSA、SPT、RoPEは変換器をデータセットからより効率的に学習し、対向損失関数は再構成画像の解像度を高める。
提案したアーキテクチャは, 画像のデノイングとインペイントの再構成作業において, 3.5 %以上の構造類似性(SSIM)でベンチマークU-Netモデルより優れている。
提案する拡張により、両タスクのベンチマークより \textasciitilde5\% ssimが改善された。
関連論文リスト
- Segmentation Guided Sparse Transformer for Under-Display Camera Image
Restoration [91.65248635837145]
Under-Display Camera(UDC)は、ディスプレイパネルの下にカメラを隠してフルスクリーン表示を実現する新興技術である。
本稿では,UDC 画像復元に Vision Transformer を用いることで,大量の冗長情報やノイズを大域的注目度で検出する。
UDC劣化画像から高品質な画像を復元するためのガイドスパース変換器(SGSFormer)を提案する。
論文 参考訳(メタデータ) (2024-03-09T13:11:59Z) - PTSR: Patch Translator for Image Super-Resolution [16.243363392717434]
画像超解像(PTSR)のためのパッチトランスレータを提案し,この問題に対処する。
提案するPTSRは、畳み込み動作のないトランスフォーマーベースGANネットワークである。
マルチヘッドアテンションを利用した改良パッチを再生するための新しいパッチトランスレータモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-20T01:45:00Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Reconstruction Distortion of Learned Image Compression with
Imperceptible Perturbations [69.25683256447044]
本稿では,学習画像圧縮(lic)の再構成品質を効果的に劣化させる攻撃手法を提案する。
我々は,Frobeniusノルムに基づく損失関数を導入して,元の画像と再構成された逆例との差を最大化することによって,逆例を生成する。
様々なlicモデルを用いてKodakデータセット上で実験を行った結果,有効性が確認された。
論文 参考訳(メタデータ) (2023-06-01T20:21:05Z) - Dual Perceptual Loss for Single Image Super-Resolution Using ESRGAN [13.335546116599494]
本稿では,従来の知覚損失を置き換えるためにDP損失(Dual Perceptual Loss)と呼ばれる手法を提案する。
VGG特徴とResNet特徴の相補的な性質のため、提案されたDPロスは2つの特徴を同時に学習する利点を考察する。
ベンチマークデータセットの定性的および定量的解析により,提案手法が最先端の超解像法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-17T12:42:56Z) - MIST-net: Multi-domain Integrative Swin Transformer network for
Sparse-View CT Reconstruction [6.620837759518855]
スパースビューデータ再構成は、典型的な過小評価された逆問題の一つである。
マルチドメイン統合スウィントランスネットワーク(MIST-net)を提案する。
48ビューの数値データセットを用いた実験により,提案したMIST-netにより画像品質が向上した。
論文 参考訳(メタデータ) (2021-11-28T14:43:26Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Spatially-Adaptive Image Restoration using Distortion-Guided Networks [51.89245800461537]
空間的に変化する劣化に苦しむ画像の復元のための学習ベースソリューションを提案する。
本研究では、歪み局所化情報を活用し、画像中の困難な領域に動的に適応するネットワーク設計であるSPAIRを提案する。
論文 参考訳(メタデータ) (2021-08-19T11:02:25Z) - SPI-GAN: Towards Single-Pixel Imaging through Generative Adversarial
Network [6.722629246312285]
本稿では,SPI-GANと呼ばれる一画素イメージングのための生成的対向的ネットワークベース再構成フレームワークを提案する。
サンプリング比が5%に低下しても、17.92dBのPSNRと0.487のSSIMで画像を再構成することができる。
論文 参考訳(メタデータ) (2021-07-03T03:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。