Fugu-MT 論文翻訳(概要): Image Reconstruction using Enhanced Vision Transformer

論文の概要: Image Reconstruction using Enhanced Vision Transformer

arxiv url: http://arxiv.org/abs/2307.05616v1
Date: Tue, 11 Jul 2023 02:14:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-13 15:55:55.961049
Title: Image Reconstruction using Enhanced Vision Transformer
Title（参考訳）: 拡張視覚変換器を用いた画像再構成
Authors: Nikhil Verma, Deepkamal Kaur, Lydia Chau
Abstract要約: 画像のデノイング,デブロアリング,インペイントといったタスクに使用できる新しい画像再構成フレームワークを提案する。このプロジェクトで提案されるモデルは、2次元画像を入力として取り込んで埋め込みを出力するビジョントランスフォーマー(ViT)に基づいている。モデル再構築機能を改善するために,フレームワークに4つの最適化手法を組み込んだ。
参考スコア（独自算出の注目度）: 0.08594140167290097
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Removing noise from images is a challenging and fundamental problem in the field of computer vision. Images captured by modern cameras are inevitably degraded by noise which limits the accuracy of any quantitative measurements on those images. In this project, we propose a novel image reconstruction framework which can be used for tasks such as image denoising, deblurring or inpainting. The model proposed in this project is based on Vision Transformer (ViT) that takes 2D images as input and outputs embeddings which can be used for reconstructing denoised images. We incorporate four additional optimization techniques in the framework to improve the model reconstruction capability, namely Locality Sensitive Attention (LSA), Shifted Patch Tokenization (SPT), Rotary Position Embeddings (RoPE) and adversarial loss function inspired from Generative Adversarial Networks (GANs). LSA, SPT and RoPE enable the transformer to learn from the dataset more efficiently, while the adversarial loss function enhances the resolution of the reconstructed images. Based on our experiments, the proposed architecture outperforms the benchmark U-Net model by more than 3.5\% structural similarity (SSIM) for the reconstruction tasks of image denoising and inpainting. The proposed enhancements further show an improvement of \textasciitilde5\% SSIM over the benchmark for both tasks.
Abstract（参考訳）: 画像からノイズを取り除くことは、コンピュータビジョンの分野で挑戦的で根本的な問題である。現代のカメラで撮影された画像はノイズによって必然的に劣化し、画像の定量的測定の精度が制限される。そこで本研究では,画像のデノイジング,デブラリング,インパインティングなどのタスクに使用できる新しい画像再構成フレームワークを提案する。このプロジェクトで提案されたモデルは、視覚トランスフォーマー(vit)に基づいて2d画像を入力とし、分節化画像の再構成に使用できる埋め込みを出力する。そこで我々は, モデル再構成機能を改善するために, 局所性感性注意(LSA), シフトパッチトークン化(SPT), 回転位置埋め込み(RoPE), GAN(Generative Adversarial Networks)にインスパイアされた対向損失関数の4つの最適化手法を組み込んだ。 LSA、SPT、RoPEは変換器をデータセットからより効率的に学習し、対向損失関数は再構成画像の解像度を高める。提案したアーキテクチャは, 画像のデノイングとインペイントの再構成作業において, 3.5 %以上の構造類似性(SSIM)でベンチマークU-Netモデルより優れている。提案する拡張により、両タスクのベンチマークより \textasciitilde5\% ssimが改善された。

関連論文リスト

Multi-Scale Representation Learning for Image Restoration with State-Space Model [13.622411683295686]
効率的な画像復元のためのマルチスケール状態空間モデル(MS-Mamba)を提案する。提案手法は,計算複雑性を低く保ちながら,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-19T16:42:58Z)
GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement [51.97726804507328]
マルチビュー画像から3次元メッシュを再構成する手法を提案する。提案手法は, 変圧器を用いたトリプレーンジェネレータとニューラルレージアンスフィールド(NeRF)モデルを用いた大規模再構成モデルから着想を得たものである。
論文参考訳（メタデータ） (2024-06-09T05:19:24Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文参考訳（メタデータ） (2024-03-31T10:01:20Z)
Segmentation Guided Sparse Transformer for Under-Display Camera Image Restoration [91.65248635837145]
Under-Display Camera(UDC)は、ディスプレイパネルの下にカメラを隠してフルスクリーン表示を実現する新興技術である。本稿では,UDC 画像復元に Vision Transformer を用いることで,大量の冗長情報やノイズを大域的注目度で検出する。 UDC劣化画像から高品質な画像を復元するためのガイドスパース変換器(SGSFormer)を提案する。
論文参考訳（メタデータ） (2024-03-09T13:11:59Z)
LIR: A Lightweight Baseline for Image Restoration [4.187190284830909]
画像復元作業の本質的な特徴は、多くの作品で見落とされがちである。 LIRと呼ばれる画像復元のための軽量ベースラインネットワークを提案し、画像の効率よく復元し、劣化を除去する。我々のLIRは、Pak Signal-to-Noise Ratio (PSNR)における最先端構造類似度指標(SSIM)および最先端モデルに匹敵する性能を達成する。
論文参考訳（メタデータ） (2024-02-02T12:39:47Z)
HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文参考訳（メタデータ） (2023-09-11T05:17:55Z)
Reconstruction Distortion of Learned Image Compression with Imperceptible Perturbations [69.25683256447044]
本稿では,学習画像圧縮(lic)の再構成品質を効果的に劣化させる攻撃手法を提案する。我々は,Frobeniusノルムに基づく損失関数を導入して,元の画像と再構成された逆例との差を最大化することによって,逆例を生成する。様々なlicモデルを用いてKodakデータセット上で実験を行った結果,有効性が確認された。
論文参考訳（メタデータ） (2023-06-01T20:21:05Z)
Dual Perceptual Loss for Single Image Super-Resolution Using ESRGAN [13.335546116599494]
本稿では,従来の知覚損失を置き換えるためにDP損失(Dual Perceptual Loss)と呼ばれる手法を提案する。 VGG特徴とResNet特徴の相補的な性質のため、提案されたDPロスは2つの特徴を同時に学習する利点を考察する。ベンチマークデータセットの定性的および定量的解析により,提案手法が最先端の超解像法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-01-17T12:42:56Z)
Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-18T18:59:10Z)
Spatially-Adaptive Image Restoration using Distortion-Guided Networks [51.89245800461537]
空間的に変化する劣化に苦しむ画像の復元のための学習ベースソリューションを提案する。本研究では、歪み局所化情報を活用し、画像中の困難な領域に動的に適応するネットワーク設計であるSPAIRを提案する。
論文参考訳（メタデータ） (2021-08-19T11:02:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。