論文の概要: Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution
- arxiv url: http://arxiv.org/abs/2207.02796v2
- Date: Sat, 29 Apr 2023 07:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 19:47:28.890707
- Title: Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution
- Title(参考訳): 軽量画像超解像のためのクロスレセプティブフォーカス型推論ネットワーク
- Authors: Wenjie Li, Juncheng Li, Guangwei Gao, Jiantao Zhou, Jian Yang, and
Guo-Jun Qi
- Abstract要約: トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
- 参考スコア(独自算出の注目度): 64.25751738088015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformer-based methods have shown impressive performance in
single image super-resolution (SISR) tasks due to the ability of global feature
extraction. However, the capabilities of Transformers that need to incorporate
contextual information to extract features dynamically are neglected. To
address this issue, we propose a lightweight Cross-receptive Focused Inference
Network (CFIN) that consists of a cascade of CT Blocks mixed with CNN and
Transformer. Specifically, in the CT block, we first propose a CNN-based
Cross-Scale Information Aggregation Module (CIAM) to enable the model to better
focus on potentially helpful information to improve the efficiency of the
Transformer phase. Then, we design a novel Cross-receptive Field Guided
Transformer (CFGT) to enable the selection of contextual information required
for reconstruction by using a modulated convolutional kernel that understands
the current semantic information and exploits the information interaction
within different self-attention. Extensive experiments have shown that our
proposed CFIN can effectively reconstruct images using contextual information,
and it can strike a good balance between computational cost and model
performance as an efficient model. Source codes will be available at
https://github.com/IVIPLab/CFIN.
- Abstract(参考訳): 近年,トランスフォーマーを用いた手法は,グローバルな特徴抽出能力により,単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
しかし、動的に特徴を抽出するために文脈情報を組み込む必要のあるトランスフォーマーの能力は無視される。
そこで本研究では,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド推論ネットワーク(CFIN)を提案する。
具体的には、CTブロックにおいて、まずCNNベースのクロススケール情報集約モジュール(CIAM)を提案する。
そこで我々は,現在の意味情報を理解し,異なる自己意図内での情報相互作用を利用する変調畳み込みカーネルを用いて,再構成に必要なコンテキスト情報の選択を可能にする,新しいクロスレセプティブフィールドガイドトランス (CFGT) を設計した。
大規模実験により,提案したCFINは文脈情報を用いて画像の再構成を効果的に行うことができ,計算コストとモデル性能のバランスが良くなることを示した。
ソースコードはhttps://github.com/IVIPLab/CFINで入手できる。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Lightweight Bimodal Network for Single-Image Super-Resolution via
Symmetric CNN and Recursive Transformer [27.51790638626891]
シングルイメージ・スーパーレゾリューション(SISR)は、ディープラーニングの開発において大きなブレークスルーを達成している。
そこで本研究では,SISRのための軽量バイモーダルネットワーク(LBNet)を提案する。
具体的には,局所特徴抽出と粗い画像再構成に有効なシンメトリCNNを設計する。
論文 参考訳(メタデータ) (2022-04-28T04:43:22Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。