論文の概要: Accurate and lightweight dehazing via multi-receptive-field non-local
network and novel contrastive regularization
- arxiv url: http://arxiv.org/abs/2309.16494v1
- Date: Thu, 28 Sep 2023 14:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 13:57:47.239893
- Title: Accurate and lightweight dehazing via multi-receptive-field non-local
network and novel contrastive regularization
- Title(参考訳): マルチレセプティブフィールド非局所ネットワークによる高精度軽量デハジングと新しいコントラスト正規化
- Authors: Zewei He, Zixuan Chen, Ziqian Lu, Xuecheng Sun, Zhe-Ming Lu
- Abstract要約: 本稿では,マルチ受信フィールド非局所ネットワーク(MRFNLN)を提案する。
マルチストリーム機能アテンションブロック(MSFAB)とクロス非ローカルブロック(CNLB)として設計されている。
これは、150万のパラメータ未満の最近の最先端の脱ハージング手法よりも優れています。
- 参考スコア(独自算出の注目度): 9.90146712189936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep learning-based methods have dominated image dehazing domain.
Although very competitive dehazing performance has been achieved with
sophisticated models, effective solutions for extracting useful features are
still under-explored. In addition, non-local network, which has made a
breakthrough in many vision tasks, has not been appropriately applied to image
dehazing. Thus, a multi-receptive-field non-local network (MRFNLN) consisting
of the multi-stream feature attention block (MSFAB) and cross non-local block
(CNLB) is presented in this paper. We start with extracting richer features for
dehazing. Specifically, we design a multi-stream feature extraction (MSFE)
sub-block, which contains three parallel convolutions with different receptive
fields (i.e., $1\times 1$, $3\times 3$, $5\times 5$) for extracting multi-scale
features. Following MSFE, we employ an attention sub-block to make the model
adaptively focus on important channels/regions. The MSFE and attention
sub-blocks constitute our MSFAB. Then, we design a cross non-local block
(CNLB), which can capture long-range dependencies beyond the query. Instead of
the same input source of query branch, the key and value branches are enhanced
by fusing more preceding features. CNLB is computation-friendly by leveraging a
spatial pyramid down-sampling (SPDS) strategy to reduce the computation and
memory consumption without sacrificing the performance. Last but not least, a
novel detail-focused contrastive regularization (DFCR) is presented by
emphasizing the low-level details and ignoring the high-level semantic
information in the representation space. Comprehensive experimental results
demonstrate that the proposed MRFNLN model outperforms recent state-of-the-art
dehazing methods with less than 1.5 Million parameters.
- Abstract(参考訳): 近年,深層学習に基づく手法が画像デハジング領域を支配している。
高度なモデルで非常に競争力のあるデハージング性能が達成されているが、有用な特徴を抽出するための効果的なソリューションはまだ探索されていない。
さらに、多くの視覚タスクで突破した非ローカルネットワークは、画像のデハージングに適切に適用されていない。
そこで本稿では,マルチストリーム特徴注意ブロック(MSFAB)とクロス非局所ブロック(CNLB)からなるマルチ受信フィールド非局所ネットワーク(MRFNLN)について述べる。
まず、デヘイジングのためによりリッチな特徴を抽出することから始めます。
具体的には,マルチストリーム特徴抽出(MSFE)サブブロックを設計し,異なる受容領域を持つ3つの並列畳み込み($1\times 1$,$3\times 3$,$5\times 5$)を用いてマルチスケール特徴抽出を行う。
MSFEの後、我々は重要なチャネルや領域に適応的に焦点を合わせるためにアテンションサブブロックを用いる。
MSFEとアテンションサブブロックは当社のMSFABを構成する。
そして、クエリ以外の長距離依存関係をキャプチャできるクロス非ローカルブロック(CNLB)を設計する。
クエリブランチの同じ入力ソースの代わりに、キーと値のブランチは、以前の機能を使って強化される。
CNLBは、空間ピラミッドダウンサンプリング(SPDS)戦略を利用して、性能を犠牲にすることなく計算とメモリ消費を減らすことで、計算に優しい。
最後に、低レベル詳細を強調し、表現空間における高レベル意味情報を無視して、新しい詳細にフォーカスしたコントラスト正規化(dfcr)を示す。
MRFNLNモデルは1.5万パラメータ未満の最近の最先端脱ハージング法よりも優れていた。
関連論文リスト
- LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing [25.016421338677816]
現在のメソッドは2種類のデータしか処理せず、追加のモダリティが提供できる豊富な情報を欠いていることが多い。
我々は,新しい textbfLightweight textbfMultimodal data textbfFusion textbfNetwork (LMFNet) を提案する。
LMFNetは、RGB、NirRG、DSMを含む様々なデータタイプを、重量共有型マルチブランチ・ビジョン・トランスフォーマーで同時に対応している。
論文 参考訳(メタデータ) (2024-04-21T13:29:42Z) - A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition [2.9581436761331017]
これらの問題に対処するために,マルチスケール機能融合(LANMSFF)を取り入れた軽量な注意ネットワークを導入する。
本稿では,マスアテンション(MassAtt)とポイントワイズ機能選択(PWFS)という2つの新しいコンポーネントを提案する。
提案手法は,パラメータ数やロバスト性の観点から,最先端手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2024-03-21T11:40:51Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - MFPNet: Multi-scale Feature Propagation Network For Lightweight Semantic
Segmentation [5.58363644107113]
マルチスケール特徴伝達ネットワーク(Net)と呼ばれる,新しい軽量セグメンテーションアーキテクチャを提案する。
フレキシブル・ボトルネック・残差モジュール(BRM)からなる対称残差ブロックを有するロバスト・デコーダ構造を設計する。
遅延長範囲のコンテキスト関係をモデル化する能力の利点を生かして、グラフ畳み込みネットワーク(GCN)を活用し、BRMブロック間のマルチスケールフィーチャの伝搬を容易にする。
論文 参考訳(メタデータ) (2023-09-10T02:02:29Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - PARFormer: Transformer-based Multi-Task Network for Pedestrian Attribute
Recognition [23.814762073093153]
4つのモジュールを含むPARFormerという,純粋なトランスフォーマーベースのマルチタスクPARネットワークを提案する。
特徴抽出モジュールでは,特徴抽出のための強力なベースラインを構築し,複数のPARベンチマークで競合する結果を得る。
視点認識モジュールでは、歩行者属性に対する視点の影響を探索し、マルチビューのコントラスト損失を提案する。
属性認識モジュールでは、負の正の不均衡問題を緩和し、属性予測を生成する。
論文 参考訳(メタデータ) (2023-04-14T16:27:56Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - Spatial and spectral deep attention fusion for multi-channel speech
separation using deep embedding features [60.20150317299749]
マルチチャネルディープクラスタリング(MDC)は、音声分離に優れた性能を得た。
本研究では,スペクトルおよび空間的特徴の重みを動的に制御し,それらを深く結合するディープ・アテンション・フュージョン法を提案する。
実験結果から,提案手法はMDCベースラインよりも優れ,理想的なバイナリマスク(IBM)よりも優れていた。
論文 参考訳(メタデータ) (2020-02-05T03:49:39Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。