論文の概要: CTCNet: A CNN-Transformer Cooperation Network for Face Image
Super-Resolution
- arxiv url: http://arxiv.org/abs/2204.08696v1
- Date: Tue, 19 Apr 2022 06:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 14:29:03.979326
- Title: CTCNet: A CNN-Transformer Cooperation Network for Face Image
Super-Resolution
- Title(参考訳): CTCNet:顔画像超解像のためのCNN変換器協調ネットワーク
- Authors: Guangwei Gao, Zixiang Xu, Juncheng Li, Jian Yang, Tieyong Zeng and
Guo-Jun Qi
- Abstract要約: 超解像課題に対する効率的なCNN-Transformer Cooperation Network (CTCNet)を提案する。
本稿ではまず,FSAUとTransformerブロックから構成されるLGCM(Local-Global Feature Cooperation Module)を考案した。
次に、局所的な顔構造情報を強化するために、効率的な局所特徴再構成モジュール(LFRM)を設計する。
- 参考スコア(独自算出の注目度): 64.06360660979138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep convolution neural networks (CNNs) steered face
super-resolution methods have achieved great progress in restoring degraded
facial details by jointly training with facial priors. However, these methods
have some obvious limitations. On the one hand, multi-task joint learning
requires additional marking on the dataset, and the introduced prior network
will significantly increase the computational cost of the model. On the other
hand, the limited receptive field of CNN will reduce the fidelity and
naturalness of the reconstructed facial images, resulting in suboptimal
reconstructed images. In this work, we propose an efficient CNN-Transformer
Cooperation Network (CTCNet) for face super-resolution tasks, which uses the
multi-scale connected encoder-decoder architecture as the backbone.
Specifically, we first devise a novel Local-Global Feature Cooperation Module
(LGCM), which is composed of a Facial Structure Attention Unit (FSAU) and a
Transformer block, to promote the consistency of local facial detail and global
facial structure restoration simultaneously. Then, we design an efficient Local
Feature Refinement Module (LFRM) to enhance the local facial structure
information. Finally, to further improve the restoration of fine facial
details, we present a Multi-scale Feature Fusion Unit (MFFU) to adaptively fuse
the features from different stages in the encoder procedure. Comprehensive
evaluations on various datasets have assessed that the proposed CTCNet can
outperform other state-of-the-art methods significantly.
- Abstract(参考訳): 近年, 深部畳み込みニューラルネットワーク (CNN) による顔の超解像法は, 顔面前兆との協調訓練により, 顔の劣化を回復する大きな進歩を遂げている。
しかし、これらの方法には明らかな制限がある。
一方、マルチタスク共同学習ではデータセットに付加的なマーキングが必要であり、導入された事前ネットワークはモデルの計算コストを大幅に増加させる。
一方、CNNの受容野の制限により、再構成された顔画像の忠実度や自然性が低下し、最適下再構成画像が得られる。
本研究では,マルチスケール接続型エンコーダデコーダアーキテクチャをバックボーンとして用いた,顔超解像タスクのための効率的なCNN-Transformer Cooperation Network (CTCNet)を提案する。
具体的には,FSAU(Fcial Structure Attention Unit)とTransformer Block(Transformer Block)を組み合わせたLGCM(Local-Global Feature Cooperation Module)を考案し,局所的な顔の細部とグローバルな顔の構造復元を同時に促進する。
次に,局所的な顔構造情報を強化するため,効率的な局所的特徴改善モジュール(lfrm)を設計する。
最後に,詳細な顔詳細の復元をさらに改善するために,マルチスケール特徴融合ユニット(mffu)を提案し,エンコーダ手順の異なる段階から特徴を適応的に融合する。
様々なデータセットに対する総合的な評価では、提案したCTCNetは他の最先端手法を著しく上回ることができると評価されている。
関連論文リスト
- W-Net: A Facial Feature-Guided Face Super-Resolution Network [8.037821981254389]
Face Super-Resolutionは、高解像度 (HR) の顔画像を低解像度 (LR) の顔画像から復元することを目的としている。
既存手法は, 再建効率が低く, 事前情報の利用が不十分であるため, 理想的ではない。
本稿では,この課題に対処するため,W-Netと呼ばれる新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-02T09:05:40Z) - Multiscale Low-Frequency Memory Network for Improved Feature Extraction
in Convolutional Neural Networks [13.815116154370834]
本稿では,Multiscale Low-Frequency Memory (MLFM) Networkを提案する。
MLFMは低周波情報を効率よく保存し、目標とするコンピュータビジョンタスクの性能を向上させる。
我々の研究は、既存のCNN基盤の上に構築され、コンピュータビジョンの今後の進歩の道を開く。
論文 参考訳(メタデータ) (2024-03-13T00:48:41Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Multi-Prior Learning via Neural Architecture Search for Blind Face
Restoration [61.27907052910136]
Blind Face Restoration (BFR)は、高品質な顔画像から高品質な顔画像を復元することを目的としている。
1)手動チューニングを伴わない強力なネットワークアーキテクチャの導出方法,2) 複数の顔前者からの補完情報を1つのネットワークで取得して復元性能を向上させる方法,の2つの大きな課題がある。
特定検索空間内において,適切な特徴抽出アーキテクチャを適応的に探索する顔復元検索ネットワーク(FRSNet)を提案する。
論文 参考訳(メタデータ) (2022-06-28T12:29:53Z) - Lightweight Bimodal Network for Single-Image Super-Resolution via
Symmetric CNN and Recursive Transformer [27.51790638626891]
シングルイメージ・スーパーレゾリューション(SISR)は、ディープラーニングの開発において大きなブレークスルーを達成している。
そこで本研究では,SISRのための軽量バイモーダルネットワーク(LBNet)を提案する。
具体的には,局所特徴抽出と粗い画像再構成に有効なシンメトリCNNを設計する。
論文 参考訳(メタデータ) (2022-04-28T04:43:22Z) - TANet: A new Paradigm for Global Face Super-resolution via
Transformer-CNN Aggregation Network [72.41798177302175]
本稿では, 顔構造特徴の表現能力を完全に探求する自己認識機構(すなわち Transformer のコア)に基づく新しいパラダイムを提案する。
具体的には、2つの経路からなるTransformer-CNNアグリゲーションネットワーク(TANet)を設計する。
上記の2つの経路から特徴を集約することにより、グローバルな顔の構造の整合性と局所的な顔のディテール復元の忠実度を同時に強化する。
論文 参考訳(メタデータ) (2021-09-16T18:15:07Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。