論文の概要: HMANet: Hybrid Multi-Axis Aggregation Network for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2405.05001v1
- Date: Wed, 8 May 2024 12:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 14:35:00.677002
- Title: HMANet: Hybrid Multi-Axis Aggregation Network for Image Super-Resolution
- Title(参考訳): HMANet:画像超解像のためのハイブリッドマルチ軸集約ネットワーク
- Authors: Shu-Chuan Chu, Zhi-Chao Dou, Jeng-Shyang Pan, Shaowei Weng, Junbao Li,
- Abstract要約: トランスフォーマーベースのネットワークは、限られた空間範囲からの入力情報しか利用できない。
本稿では,Hybrid Multi-Axis Aggregation Network (HMA)を提案する。
実験の結果,HMAはベンチマークデータセットの最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 6.7341750484636975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based methods have demonstrated excellent performance on super-resolution visual tasks, surpassing conventional convolutional neural networks. However, existing work typically restricts self-attention computation to non-overlapping windows to save computational costs. This means that Transformer-based networks can only use input information from a limited spatial range. Therefore, a novel Hybrid Multi-Axis Aggregation network (HMA) is proposed in this paper to exploit feature potential information better. HMA is constructed by stacking Residual Hybrid Transformer Blocks(RHTB) and Grid Attention Blocks(GAB). On the one side, RHTB combines channel attention and self-attention to enhance non-local feature fusion and produce more attractive visual results. Conversely, GAB is used in cross-domain information interaction to jointly model similar features and obtain a larger perceptual field. For the super-resolution task in the training phase, a novel pre-training method is designed to enhance the model representation capabilities further and validate the proposed model's effectiveness through many experiments. The experimental results show that HMA outperforms the state-of-the-art methods on the benchmark dataset. We provide code and models at https://github.com/korouuuuu/HMA.
- Abstract(参考訳): トランスフォーマーに基づく手法は、従来の畳み込みニューラルネットワークを超越した超高解像度視覚タスクにおいて優れた性能を示した。
しかし、既存の作業は通常、計算コストを削減するために、自己アテンション計算をオーバーラップしないウィンドウに制限する。
つまり、Transformerベースのネットワークは、限られた空間範囲からの入力情報しか利用できない。
そこで本稿では,機能的ポテンシャル情報を活用するために,Hybrid Multi-Axis Aggregation Network (HMA)を提案する。
HMAはResidual Hybrid Transformer Blocks(RHTB)とGrid Attention Blocks(GAB)を積み重ねて構築される。
一方、RHTBはチャネルアテンションと自己アテンションを組み合わせることで、非局所的な特徴融合を強化し、より魅力的な視覚的結果をもたらす。
逆に、GABはドメイン間の情報相互作用において、類似した特徴を共同でモデル化し、より大きな知覚場を得るために用いられる。
訓練段階における超高分解能タスクに対しては,モデル表現能力をさらに向上し,多くの実験を通じて提案したモデルの有効性を検証するために,新しい事前学習法が設計されている。
実験の結果,HMAはベンチマークデータセットの最先端手法よりも優れていた。
私たちはhttps://github.com/korouuuuu/HMA.comでコードとモデルを提供しています。
関連論文リスト
- Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Efficient generative adversarial networks using linear
additive-attention Transformers [0.9790236766474198]
本稿では,Ladaformerという新しいトランスフォーマーブロック上に構築した,効率的な生成対逆ネットワークであるLadaGANを提案する。
LadaGANは、さまざまな解像度のベンチマークデータセットにおいて、既存の畳み込みGANとTransformer GANを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-17T21:08:41Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - FFEINR: Flow Feature-Enhanced Implicit Neural Representation for
Spatio-temporal Super-Resolution [4.577685231084759]
本稿では,フローフィールドデータの超高分解能化のための特徴強調型ニューラルインシシット表現(FFEINR)を提案する。
モデル構造とサンプリング分解能の観点から、暗黙のニューラル表現を最大限に活用することができる。
FFEINRのトレーニングプロセスは、入力層に機能拡張を導入することで容易になる。
論文 参考訳(メタデータ) (2023-08-24T02:28:18Z) - Efficient Image Super-Resolution with Feature Interaction Weighted
Hybrid Network [100.0415874554937]
本稿では、上記の問題を緩和する特徴相互作用重み付きハイブリッドネットワーク(FIWHN)を提案する。
具体的には、FIWHNは、バックボーンとしてのWDIB(Wide-Residual Distillation Interaction Blocks)のシリーズで構成されている。
CNNモデルに欠けているグローバル機能を補完するため、我々のモデルにTransformerを導入し、CNNとTransformerを組み合わせた新しい方法を模索した。
論文 参考訳(メタデータ) (2022-12-29T05:57:29Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Progressive Multi-stage Interactive Training in Mobile Network for
Fine-grained Recognition [8.727216421226814]
再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。
まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。
次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。
RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-12-08T10:50:03Z) - Learning A 3D-CNN and Transformer Prior for Hyperspectral Image
Super-Resolution [80.93870349019332]
本稿では,CNN の代わりに Transformer を用いて HSI の事前学習を行う新しい HSISR 手法を提案する。
具体的には、まず勾配アルゴリズムを用いてHSISRモデルを解き、次に展開ネットワークを用いて反復解過程をシミュレートする。
論文 参考訳(メタデータ) (2021-11-27T15:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。