論文の概要: Attention-Guided Multi-scale Interaction Network for Face Super-Resolution
- arxiv url: http://arxiv.org/abs/2409.00591v1
- Date: Sun, 1 Sep 2024 02:53:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 13:43:27.561804
- Title: Attention-Guided Multi-scale Interaction Network for Face Super-Resolution
- Title(参考訳): 顔超解像のための注意誘導型マルチスケールインタラクションネットワーク
- Authors: Xujie Wan, Wenjie Li, Guangwei Gao, Huimin Lu, Jian Yang, Chia-Wen Lin,
- Abstract要約: CNNとTransformerハイブリッドネットワークは、顔超解像(FSR)タスクにおいて優れた性能を示した。
マルチスケール機能を融合し、それらの相補性を促進する方法は、FSRの強化に不可欠である。
私たちの設計では、モジュール内およびエンコーダとデコーダ間のマルチスケール機能のフリーフローを可能にします。
- 参考スコア(独自算出の注目度): 46.42710591689621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, CNN and Transformer hybrid networks demonstrated excellent performance in face super-resolution (FSR) tasks. Since numerous features at different scales in hybrid networks, how to fuse these multi-scale features and promote their complementarity is crucial for enhancing FSR. However, existing hybrid network-based FSR methods ignore this, only simply combining the Transformer and CNN. To address this issue, we propose an attention-guided Multi-scale interaction network (AMINet), which contains local and global feature interactions as well as encoder-decoder phases feature interactions. Specifically, we propose a Local and Global Feature Interaction Module (LGFI) to promote fusions of global features and different receptive fields' local features extracted by our Residual Depth Feature Extraction Module (RDFE). Additionally, we propose a Selective Kernel Attention Fusion Module (SKAF) to adaptively select fusions of different features within LGFI and encoder-decoder phases. Our above design allows the free flow of multi-scale features from within modules and between encoder and decoder, which can promote the complementarity of different scale features to enhance FSR. Comprehensive experiments confirm that our method consistently performs well with less computational consumption and faster inference.
- Abstract(参考訳): 近年,CNNとTransformerのハイブリッドネットワークは,FSRタスクにおいて優れた性能を示した。
ハイブリッドネットワークでは,様々な機能があるため,FSRの強化には,これらのマルチスケール機能を融合し,その相補性を促進することが不可欠である。
しかし、既存のハイブリッドネットワークベースのFSR手法はこれを無視し、TransformerとCNNを組み合わせただけである。
この問題に対処するために,ローカルおよびグローバルな機能インタラクションとエンコーダとデコーダのフェーズを含むマルチスケールインタラクションネットワーク(AMINet)を提案する。
具体的には,Residual Depth Feature extract Module (RDFE) によって抽出されたグローバルな特徴と異なる受容領域の局所的特徴の融合を促進するために,LGFI (Local and Global Feature Interaction Module) を提案する。
さらに,LGFIとエンコーダ・デコーダの相における異なる特徴の融合を適応的に選択するSKAF(Selective Kernel Attention Fusion Module)を提案する。
上述の設計により、モジュール内およびエンコーダとデコーダ間のマルチスケール機能の自由なフローが可能となり、異なるスケール機能の相補性が促進され、FSRが向上する。
包括的実験により,提案手法は計算量が少なく,推論速度も速いことが確認された。
関連論文リスト
- Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。
提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T12:02:47Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - Multi-Scale Implicit Transformer with Re-parameterize for
Arbitrary-Scale Super-Resolution [2.4865475189445405]
マルチスケールインプリシットトランス(MSIT)
MSITは、MSNO(Multi-scale Neural Operator)とMSSA(Multi-scale Self-Attention)から構成される。
論文 参考訳(メタデータ) (2024-03-11T09:23:20Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Efficient Image Super-Resolution with Feature Interaction Weighted Hybrid Network [101.53907377000445]
軽量画像超解像は、低解像度画像から低計算コストで高解像度画像を再構成することを目的としている。
既存の方法では、活性化関数による中間層の特徴が失われる。
本稿では,中間的特徴損失が再構成品質に与える影響を最小限に抑えるために,特徴相互作用重み付きハイブリッドネットワーク(FIWHN)を提案する。
論文 参考訳(メタデータ) (2022-12-29T05:57:29Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Multi-modal land cover mapping of remote sensing images using pyramid
attention and gated fusion networks [20.66034058363032]
本稿では、新しいピラミッド注意融合(PAF)モジュールとゲート融合ユニット(GFU)に基づくマルチモーダルリモートセンシングデータの土地被覆マッピングのための新しいマルチモーダルネットワークを提案する。
PAFモジュールは、内蔵のクロスレベルおよびクロスビューアテンション融合機構により、各モードからより微細なコンテキスト表現を効率的に得るように設計されている。
GFUモジュールは、新機能の早期マージに新しいゲーティング機構を使用し、隠れた冗長性とノイズを減少させる。
論文 参考訳(メタデータ) (2021-11-06T10:01:01Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - Attentional Feature Fusion [4.265244011052538]
本稿では,一様で汎用的な特徴融合手法を提案する。
我々のモデルは、CIFAR-100とImageNetのデータセットで最先端のネットワークより優れていることを示す。
論文 参考訳(メタデータ) (2020-09-29T15:10:18Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。