論文の概要: HIPA: Hierarchical Patch Transformer for Single Image Super Resolution
- arxiv url: http://arxiv.org/abs/2203.10247v2
- Date: Wed, 7 Jun 2023 01:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 20:30:38.817171
- Title: HIPA: Hierarchical Patch Transformer for Single Image Super Resolution
- Title(参考訳): HIPA:単一画像超解像のための階層型パッチ変換器
- Authors: Qing Cai, Yiming Qian, Jinxing Li, Jun Lv, Yee-Hong Yang, Feng Wu,
David Zhang
- Abstract要約: 本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズでトークンから始めて、徐々に全解像度にマージします。
このような階層的なパッチ機構は、複数の解像度で機能集約を可能にするだけでなく、異なる画像領域に対するパッチ認識機能も適応的に学習する。
- 参考スコア(独自算出の注目度): 62.7081074931892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based architectures start to emerge in single image super
resolution (SISR) and have achieved promising performance. Most existing Vision
Transformers divide images into the same number of patches with a fixed size,
which may not be optimal for restoring patches with different levels of texture
richness. This paper presents HIPA, a novel Transformer architecture that
progressively recovers the high resolution image using a hierarchical patch
partition. Specifically, we build a cascaded model that processes an input
image in multiple stages, where we start with tokens with small patch sizes and
gradually merge to the full resolution. Such a hierarchical patch mechanism not
only explicitly enables feature aggregation at multiple resolutions but also
adaptively learns patch-aware features for different image regions, e.g., using
a smaller patch for areas with fine details and a larger patch for textureless
regions. Meanwhile, a new attention-based position encoding scheme for
Transformer is proposed to let the network focus on which tokens should be paid
more attention by assigning different weights to different tokens, which is the
first time to our best knowledge. Furthermore, we also propose a new
multi-reception field attention module to enlarge the convolution reception
field from different branches. The experimental results on several public
datasets demonstrate the superior performance of the proposed HIPA over
previous methods quantitatively and qualitatively.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは、単一のイメージスーパー解像度(SISR)で登場し始め、有望なパフォーマンスを達成した。
既存のビジョントランスフォーマのほとんどは、イメージを一定のサイズで同じ数のパッチに分割するが、テクスチャのリッチさの異なるパッチの復元には最適ではない。
本稿では,階層型パッチ分割を用いた高解像度画像を段階的に復元する新しいトランスフォーマーアーキテクチャHIPAを提案する。
具体的には、入力画像を複数のステージで処理するカスケードモデルを構築し、小さなパッチサイズのトークンから始めて、徐々にフル解像度にマージします。
このような階層的パッチ機構は,複数の解像度でのフィーチャーアグリゲーションを明示的に可能にするだけでなく,詳細な部分に対する小さなパッチ,テクスチャレス領域に対するより大きなパッチなど,さまざまなイメージ領域に対するパッチアウェア機能を適応的に学習する。
一方,各トークンに異なる重みを割り当てることで,どのトークンに注意を払うべきかをネットワークがより重視できるように,トランスフォーマの注意に基づく位置符号化方式が提案されている。
さらに,異なるブランチから畳み込み受信フィールドを拡大するための,新しいマルチ受信フィールドアテンションモジュールを提案する。
いくつかの公開データセットに対する実験結果から,提案したHIPAの従来手法よりも定量的かつ定性的に優れた性能を示した。
関連論文リスト
- DBAT: Dynamic Backward Attention Transformer for Material Segmentation
with Cross-Resolution Patches [8.812837829361923]
クロスレゾリューション特徴を集約する動的後方アテンション変換器(DBAT)を提案する。
実験の結果,DBATの精度は86.85%であり,最先端のリアルタイムモデルの中では最高の性能であることがわかった。
さらに,提案モデルが他の手法よりも優れた材料関連特徴を抽出できることを示すため,セマンティックなラベルにアライメントし,ネットワーク分割を行う。
論文 参考訳(メタデータ) (2023-05-06T03:47:20Z) - From Coarse to Fine: Hierarchical Pixel Integration for Lightweight
Image Super-Resolution [41.0555613285837]
トランスフォーマーモデルによる画像超解像(SR)の競争性能の向上
SRネットワークのローカルマップ(LAM)の解釈から洞察を得た新しいアテンションブロックを提案する。
細部では、パッチ内自己注意属性(IPSA)モジュールを使用して、局所パッチ内の長距離画素依存性をモデル化する。
論文 参考訳(メタデータ) (2022-11-30T06:32:34Z) - Masked Transformer for image Anomaly Localization [14.455765147827345]
パッチマスキングを用いたビジョントランスフォーマーアーキテクチャに基づく画像異常検出のための新しいモデルを提案する。
マルチレゾリューションパッチとその集合埋め込みは,モデルの性能を大幅に向上させることを示す。
提案モデルはMVTecや頭部CTなどの一般的な異常検出データセットでテストされている。
論文 参考訳(メタデータ) (2022-10-27T15:30:48Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Learned Distributed Image Compression with Multi-Scale Patch Matching in
Feature Domai [62.88240343479615]
分散画像圧縮モデルのデコーダの側情報を完全に活用するためのマルチスケール特徴領域マッチング(MSFDPM)を提案する。
MSFDPMは、サイド情報特徴抽出器、マルチスケール機能領域パッチマッチングモジュール、マルチスケール機能融合ネットワークから構成される。
マルチスケールの特徴領域におけるパッチマッチングは,画像領域におけるパッチマッチング手法と比較して圧縮率を約20%向上させる。
論文 参考訳(メタデータ) (2022-09-06T14:06:46Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion [37.993611194758195]
画像から意味情報を抽出する問題に対処するため,Patch Pyramid Transformer(PPT)を提案する。
実験により, 現状の核融合法に対して優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-29T13:57:45Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。