論文の概要: Image Reconstruction using Enhanced Vision Transformer
- arxiv url: http://arxiv.org/abs/2307.05616v1
- Date: Tue, 11 Jul 2023 02:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 15:55:55.961049
- Title: Image Reconstruction using Enhanced Vision Transformer
- Title(参考訳): 拡張視覚変換器を用いた画像再構成
- Authors: Nikhil Verma, Deepkamal Kaur, Lydia Chau
- Abstract要約: 画像のデノイング,デブロアリング,インペイントといったタスクに使用できる新しい画像再構成フレームワークを提案する。
このプロジェクトで提案されるモデルは、2次元画像を入力として取り込んで埋め込みを出力するビジョントランスフォーマー(ViT)に基づいている。
モデル再構築機能を改善するために,フレームワークに4つの最適化手法を組み込んだ。
- 参考スコア(独自算出の注目度): 0.08594140167290097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Removing noise from images is a challenging and fundamental problem in the
field of computer vision. Images captured by modern cameras are inevitably
degraded by noise which limits the accuracy of any quantitative measurements on
those images. In this project, we propose a novel image reconstruction
framework which can be used for tasks such as image denoising, deblurring or
inpainting. The model proposed in this project is based on Vision Transformer
(ViT) that takes 2D images as input and outputs embeddings which can be used
for reconstructing denoised images. We incorporate four additional optimization
techniques in the framework to improve the model reconstruction capability,
namely Locality Sensitive Attention (LSA), Shifted Patch Tokenization (SPT),
Rotary Position Embeddings (RoPE) and adversarial loss function inspired from
Generative Adversarial Networks (GANs). LSA, SPT and RoPE enable the
transformer to learn from the dataset more efficiently, while the adversarial
loss function enhances the resolution of the reconstructed images. Based on our
experiments, the proposed architecture outperforms the benchmark U-Net model by
more than 3.5\% structural similarity (SSIM) for the reconstruction tasks of
image denoising and inpainting. The proposed enhancements further show an
improvement of \textasciitilde5\% SSIM over the benchmark for both tasks.
- Abstract(参考訳): 画像からノイズを取り除くことは、コンピュータビジョンの分野で挑戦的で根本的な問題である。
現代のカメラで撮影された画像はノイズによって必然的に劣化し、画像の定量的測定の精度が制限される。
そこで本研究では,画像のデノイジング,デブラリング,インパインティングなどのタスクに使用できる新しい画像再構成フレームワークを提案する。
このプロジェクトで提案されたモデルは、視覚トランスフォーマー(vit)に基づいて2d画像を入力とし、分節化画像の再構成に使用できる埋め込みを出力する。
そこで我々は, モデル再構成機能を改善するために, 局所性感性注意(LSA), シフトパッチトークン化(SPT), 回転位置埋め込み(RoPE), GAN(Generative Adversarial Networks)にインスパイアされた対向損失関数の4つの最適化手法を組み込んだ。
LSA、SPT、RoPEは変換器をデータセットからより効率的に学習し、対向損失関数は再構成画像の解像度を高める。
提案したアーキテクチャは, 画像のデノイングとインペイントの再構成作業において, 3.5 %以上の構造類似性(SSIM)でベンチマークU-Netモデルより優れている。
提案する拡張により、両タスクのベンチマークより \textasciitilde5\% ssimが改善された。
関連論文リスト
- GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement [51.97726804507328]
マルチビュー画像から3次元メッシュを再構成する手法を提案する。
提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
論文 参考訳(メタデータ) (2024-06-09T05:19:24Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - Segmentation Guided Sparse Transformer for Under-Display Camera Image
Restoration [91.65248635837145]
Under-Display Camera(UDC)は、ディスプレイパネルの下にカメラを隠してフルスクリーン表示を実現する新興技術である。
本稿では,UDC 画像復元に Vision Transformer を用いることで,大量の冗長情報やノイズを大域的注目度で検出する。
UDC劣化画像から高品質な画像を復元するためのガイドスパース変換器(SGSFormer)を提案する。
論文 参考訳(メタデータ) (2024-03-09T13:11:59Z) - LIR: A Lightweight Baseline for Image Restoration [4.187190284830909]
画像復元作業の本質的な特徴は、多くの作品で見落とされがちである。
LIRと呼ばれる画像復元のための軽量ベースラインネットワークを提案し、画像の効率よく復元し、劣化を除去する。
我々のLIRは、Pak Signal-to-Noise Ratio (PSNR)における最先端構造類似度指標(SSIM)および最先端モデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-02-02T12:39:47Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Reconstruction Distortion of Learned Image Compression with
Imperceptible Perturbations [69.25683256447044]
本稿では,学習画像圧縮(lic)の再構成品質を効果的に劣化させる攻撃手法を提案する。
我々は,Frobeniusノルムに基づく損失関数を導入して,元の画像と再構成された逆例との差を最大化することによって,逆例を生成する。
様々なlicモデルを用いてKodakデータセット上で実験を行った結果,有効性が確認された。
論文 参考訳(メタデータ) (2023-06-01T20:21:05Z) - Dual Perceptual Loss for Single Image Super-Resolution Using ESRGAN [13.335546116599494]
本稿では,従来の知覚損失を置き換えるためにDP損失(Dual Perceptual Loss)と呼ばれる手法を提案する。
VGG特徴とResNet特徴の相補的な性質のため、提案されたDPロスは2つの特徴を同時に学習する利点を考察する。
ベンチマークデータセットの定性的および定量的解析により,提案手法が最先端の超解像法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-17T12:42:56Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - SPI-GAN: Towards Single-Pixel Imaging through Generative Adversarial
Network [6.722629246312285]
本稿では,SPI-GANと呼ばれる一画素イメージングのための生成的対向的ネットワークベース再構成フレームワークを提案する。
サンプリング比が5%に低下しても、17.92dBのPSNRと0.487のSSIMで画像を再構成することができる。
論文 参考訳(メタデータ) (2021-07-03T03:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。