論文の概要: Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2404.11273v1
- Date: Wed, 17 Apr 2024 11:25:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:24:17.733720
- Title: Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-Resolution
- Title(参考訳): ウェーブレット損失によるトレーニング変圧器モデルによる単一画像超解法における定量的・視覚的性能の向上
- Authors: Cansu Korkmaz, A. Murat Tekalp,
- Abstract要約: トランスフォーマーベースモデルは、画像超解像(SR)を含む低レベル視覚タスクにおいて顕著な結果を得た
グローバルにより多くの入力ピクセルを活性化するために、ハイブリッドアテンションモデルが提案されている。
ウェーブレット損失を利用してTransformerモデルをトレーニングし、定量的および主観的性能を向上させる。
- 参考スコア(独自算出の注目度): 6.367865391518726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have achieved remarkable results in low-level vision tasks including image super-resolution (SR). However, early Transformer-based approaches that rely on self-attention within non-overlapping windows encounter challenges in acquiring global information. To activate more input pixels globally, hybrid attention models have been proposed. Moreover, training by solely minimizing pixel-wise RGB losses, such as L1, have been found inadequate for capturing essential high-frequency details. This paper presents two contributions: i) We introduce convolutional non-local sparse attention (NLSA) blocks to extend the hybrid transformer architecture in order to further enhance its receptive field. ii) We employ wavelet losses to train Transformer models to improve quantitative and subjective performance. While wavelet losses have been explored previously, showing their power in training Transformer-based SR models is novel. Our experimental results demonstrate that the proposed model provides state-of-the-art PSNR results as well as superior visual performance across various benchmark datasets.
- Abstract(参考訳): トランスフォーマーベースのモデルは、画像超解像(SR)を含む低レベルの視覚タスクにおいて顕著な成果を上げている。
しかし、オーバーラップしないウィンドウ内で自己注意に依存する初期のTransformerベースのアプローチは、グローバル情報を取得する上での課題に直面する。
グローバルにより多くの入力ピクセルを活性化するために、ハイブリッドアテンションモデルが提案されている。
さらに,L1などの画素単位のRGB損失を最小化することによるトレーニングは,必須の高周波の詳細を捉えるのに不十分であることが判明した。
本稿では,2つのコントリビューションについて述べる。
一 畳み込み非局所スパースアテンション(NLSA)ブロックを導入し、ハイブリッドトランスフォーマーアーキテクチャを拡張して、受容場をさらに強化する。
二 定量的・主観的性能を向上させるためにトランスフォーマーモデルを訓練するためにウェーブレット損失を用いる。
従来、ウェーブレットの損失は調査されてきたが、トランスフォーマーベースのSRモデルをトレーニングする際のパワーを示すのは、新しいことである。
実験により,提案手法は様々なベンチマークデータセットに対して,最新のPSNR結果と優れた視覚性能を提供することを示した。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Research on Personalized Compression Algorithm for Pre-trained Models Based on Homomorphic Entropy Increase [2.6513322539118582]
我々は、現在のAI分野における2つの重要な技術の課題と進化を探求する:ビジョントランスフォーマーモデルと大規模言語モデル(LLM)。
Vision Transformerは、イメージを小さな断片に分割することで、グローバルな情報をキャプチャするが、その高い参照数とモバイル機器へのオーバヘッド制限の配置を計算する。
LLMは自然言語処理に革命をもたらしたが、デプロイメントの課題にも直面している。
論文 参考訳(メタデータ) (2024-08-16T11:56:49Z) - IG-CFAT: An Improved GAN-Based Framework for Effectively Exploiting Transformers in Real-World Image Super-Resolution [2.1561701531034414]
近年, 複合核融合注意変換器 (CFAT) は, 従来のSOTAモデルよりも高画質である。
本稿では,実世界の画像超解像における変換器の性能を効果的に活用するために,CFATモデルを取り入れた新しいGANベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-19T20:21:26Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - WaveletFormerNet: A Transformer-based Wavelet Network for Real-world
Non-homogeneous and Dense Fog Removal [11.757602977709517]
本稿では,現実の霧画像回復のためのトランスフォーマーベースのウェーブレットネットワーク(WaveletFormerNet)を提案する。
トランスフォーマーブロックに並列畳み込みを導入し、軽量な機構で多周波情報のキャプチャを可能にする。
我々の実験は、WaveletFormerNetが最先端の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-01-09T13:42:21Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Joint Generative Learning and Super-Resolution For Real-World
Camera-Screen Degradation [6.14297871633911]
現実世界の単一画像超解像(SISR)タスクでは、低解像度画像はより複雑な劣化に苦しむ。
本稿では,カメラ画面の劣化に着目し,実世界のデータセット(Cam-ScreenSR)を構築する。
まず、ダウンサンプリング劣化GAN(DD-GAN)をトレーニングし、その分解をモデル化し、より多様なLR画像を生成する。
そして、二重残差チャネルアテンションネットワーク(DuRCAN)がSR画像の復元を学習する。
論文 参考訳(メタデータ) (2020-08-01T07:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。