論文の概要: KBNet: Kernel Basis Network for Image Restoration
- arxiv url: http://arxiv.org/abs/2303.02881v1
- Date: Mon, 6 Mar 2023 04:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 17:08:58.780966
- Title: KBNet: Kernel Basis Network for Image Restoration
- Title(参考訳): kbnet: イメージ復元のためのカーネルベースネットワーク
- Authors: Yi Zhang, Dasong Li, Xiaoyu Shi, Dailan He, Kangning Song, Xiaogang
Wang, Hongwei Qin, Hongsheng Li
- Abstract要約: 空間情報を集約する方法は、学習に基づく画像復元において重要な役割を担っている。
既存のCNNベースのネットワークの多くは、空間情報を適応的に集約できない空間情報をエンコードするために静的畳み込みカーネルを採用している。
本稿では,学習可能なカーネルベースを導入し,空間情報集約のための代表画像パターンをモデル化するカーネルベースアテンション(KBA)モジュールを提案する。
我々のモデルはカーネルベースネットワーク (KBNet) と呼ばれ、画像のデノイング、デライニング、デブロワーリングといったタスクに対して、10以上のベンチマークで最先端のパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 36.591716199988895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to aggregate spatial information plays an essential role in
learning-based image restoration. Most existing CNN-based networks adopt static
convolutional kernels to encode spatial information, which cannot aggregate
spatial information adaptively. Recent transformer-based architectures achieve
adaptive spatial aggregation. But they lack desirable inductive biases of
convolutions and require heavy computational costs. In this paper, we propose a
kernel basis attention (KBA) module, which introduces learnable kernel bases to
model representative image patterns for spatial information aggregation.
Different kernel bases are trained to model different local structures. At each
spatial location, they are linearly and adaptively fused by predicted
pixel-wise coefficients to obtain aggregation weights. Based on the KBA module,
we further design a multi-axis feature fusion (MFF) block to encode and fuse
channel-wise, spatial-invariant, and pixel-adaptive features for image
restoration. Our model, named kernel basis network (KBNet), achieves
state-of-the-art performances on more than ten benchmarks over image denoising,
deraining, and deblurring tasks while requiring less computational cost than
previous SOTA methods.
- Abstract(参考訳): 空間情報の集約は,学習に基づく画像復元において重要な役割を果たす。
既存のCNNベースのネットワークの多くは、空間情報を適応的に集約できない空間情報をエンコードするために静的畳み込みカーネルを採用している。
最近のトランスフォーマーベースのアーキテクチャは適応的な空間集約を実現する。
しかし、それらは畳み込みの望ましい帰納バイアスがなく、計算コストが重い。
本稿では,空間情報集約のための代表像パターンをモデル化するための学習可能なカーネルベースを導入したカーネルベースアテンション(KBA)モジュールを提案する。
異なるカーネルベースは異なるローカル構造をモデル化するように訓練されている。
各空間位置において、予測された画素毎係数により線形かつ適応的に融合して凝集重みを得る。
さらに,KBAモジュールをベースとしたマルチ軸機能融合(MFF)ブロックを設計し,画像復元のためのチャネルワイド,空間不変,画素適応といった特徴を符号化する。
我々のモデルである kernel basis network (kbnet) は,従来の sota 法よりも少ない計算コストを要しながら,画像のデノイジングやデレイジング,デブラリングといった10以上のベンチマークで最先端のパフォーマンスを実現している。
関連論文リスト
- Enhancing Learned Image Compression via Cross Window-based Attention [4.673285689826945]
特徴符号化モジュールと統合したCNNベースのソリューションを提案する。
クロススケールウィンドウベースアテンションは、変換器のアテンション機構にインスパイアされ、受容場を効果的に拡大する。
提案手法はKodakおよびCLICデータセット上で評価し,提案手法が有効であり,最先端手法と同等であることを示す。
論文 参考訳(メタデータ) (2024-10-28T15:44:35Z) - FocDepthFormer: Transformer with latent LSTM for Depth Estimation from Focal Stack [11.433602615992516]
本稿では,トランスフォーマーをLSTMモジュールとCNNデコーダと統合した新しいトランスフォーマーネットワークFocDepthFormerを提案する。
LSTMを組み込むことで、FocDepthFormerは大規模な単分子RGB深さ推定データセットで事前トレーニングすることができる。
我々のモデルは、複数の評価指標で最先端のアプローチより優れています。
論文 参考訳(メタデータ) (2023-10-17T11:53:32Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion [14.33259265286265]
本稿では,空間スペクトル情報の効率的な抽出を実現するために,高スペクトル画像(HSI)のための高速多スケール畳み込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力し、中央画素のスペクトル情報を再構成する。
論文 参考訳(メタデータ) (2022-03-09T14:42:26Z) - Content-aware Directed Propagation Network with Pixel Adaptive Kernel
Attention [20.0783340490331]
画素適応カーネルアテンション(Paka)と呼ばれる新しい操作を提案する。
PAKAは、学習可能な特徴から空間的に異なる注意を掛けることで、フィルタ重みへの指向性を提供する。
本手法はエンドツーエンドで学習可能であり,任意のCNNモデルに適用可能である。
論文 参考訳(メタデータ) (2021-07-28T02:59:19Z) - Spatial Dependency Networks: Neural Layers for Improved Generative Image
Modeling [79.15521784128102]
画像生成装置(デコーダ)を構築するための新しいニューラルネットワークを導入し、可変オートエンコーダ(VAE)に適用する。
空間依存ネットワーク(sdns)では、ディープニューラルネットの各レベルにおける特徴マップを空間的にコヒーレントな方法で計算する。
空間依存層による階層型vaeのデコーダの強化は密度推定を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-16T07:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。