論文の概要: Towards Context-aware Convolutional Network for Image Restoration
- arxiv url: http://arxiv.org/abs/2412.11008v1
- Date: Sun, 15 Dec 2024 01:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:37.226884
- Title: Towards Context-aware Convolutional Network for Image Restoration
- Title(参考訳): 画像復元のためのコンテキスト対応畳み込みネットワークの実現に向けて
- Authors: Fangwei Hao, Ji Du, Weiyun Liang, Jing Xu, Xiaoxuan Xu,
- Abstract要約: トランスフォーマーベースのアルゴリズムと注意に基づく畳み込みニューラルネットワーク(CNN)は、いくつかの画像復元タスクにおいて有望な結果を示している。
既存のIR用畳み込み残基は、入力を高次元および非線形の特徴空間にマッピングする限られた能力に遭遇する。
本研究では,文脈認識型畳み込みネットワーク(CCNet)を提案する。
- 参考スコア(独自算出の注目度): 5.319939908085759
- License:
- Abstract: Image restoration (IR) is a long-standing task to recover a high-quality image from its corrupted observation. Recently, transformer-based algorithms and some attention-based convolutional neural networks (CNNs) have presented promising results on several IR tasks. However, existing convolutional residual building modules for IR encounter limited ability to map inputs into high-dimensional and non-linear feature spaces, and their local receptive fields have difficulty in capturing long-range context information like Transformer. Besides, CNN-based attention modules for IR either face static abundant parameters or have limited receptive fields. To address the first issue, we propose an efficient residual star module (ERSM) that includes context-aware "star operation" (element-wise multiplication) to contextually map features into exceedingly high-dimensional and non-linear feature spaces, which greatly enhances representation learning. To further boost the extraction of contextual information, as for the second issue, we propose a large dynamic integration module (LDIM) which possesses an extremely large receptive field. Thus, LDIM can dynamically and efficiently integrate more contextual information that helps to further significantly improve the reconstruction performance. Integrating ERSM and LDIM into an U-shaped backbone, we propose a context-aware convolutional network (CCNet) with powerful learning ability for contextual high-dimensional mapping and abundant contextual information. Extensive experiments show that our CCNet with low model complexity achieves superior performance compared to other state-of-the-art IR methods on several IR tasks, including image dehazing, image motion deblurring, and image desnowing.
- Abstract(参考訳): 画像復元(IR)は、その劣化した観察から高品質な画像を復元するための長年の課題である。
近年、トランスフォーマーベースのアルゴリズムと注意に基づく畳み込みニューラルネットワーク(CNN)が、いくつかのIRタスクにおいて有望な結果を示している。
しかし、既存のIR用畳み込み残余構造モジュールは、入力を高次元および非線形特徴空間にマッピングする限られた能力に遭遇し、それらの局所受容場は、Transformerのような長距離コンテキスト情報を取得するのに困難である。
さらに、IR用のCNNベースのアテンションモジュールは、静的な豊富なパラメータに直面するか、限定的な受容場を持つ。
最初の課題に対処するため,高次元かつ非線形な特徴空間に特徴を文脈的にマッピングし,表現学習を大幅に強化する,文脈対応の「星演算」を含む効率的な残留星加群(ERSM)を提案する。
文脈情報の抽出をさらに促進するために、第2の課題として、非常に大きな受容場を持つ大規模動的統合モジュール(LDIM)を提案する。
これにより、LDIMはより文脈的な情報を動的かつ効率的に統合し、再構築性能をさらに向上させることができる。
ERSMとLDIMをU字型のバックボーンに統合し,コンテキスト認識型畳み込みネットワーク(CCNet)を提案する。
画像デハジング,イメージモーションデブロアリング,画像認識など,複数のIRタスクにおける他の最先端IR手法と比較して,モデル複雑性の低いCCNetの方が優れた性能を示すことを示す。
関連論文リスト
- VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。
VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-03-18T02:38:55Z) - EPNet: An Efficient Pyramid Network for Enhanced Single-Image
Super-Resolution with Reduced Computational Requirements [12.439807086123983]
シングルイメージ超解像(SISR)は、ディープラーニングの統合によって大幅に進歩した。
本稿では,エッジ分割ピラミッドモジュール (ESPM) とパノラマ特徴抽出モジュール (PFEM) を調和して結合し,既存の手法の限界を克服する,EPNet (Efficient Pyramid Network) を提案する。
論文 参考訳(メタデータ) (2023-12-20T19:56:53Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。