論文の概要: DMTNet: Dynamic Multi-scale Network for Dual-pixel Images Defocus
Deblurring with Transformer
- arxiv url: http://arxiv.org/abs/2209.06040v1
- Date: Tue, 13 Sep 2022 14:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:57:53.820793
- Title: DMTNet: Dynamic Multi-scale Network for Dual-pixel Images Defocus
Deblurring with Transformer
- Title(参考訳): dmtnet:トランスフォーマーを用いたデュアルピクセル画像デフォーカスデブラリングのためのダイナミックマルチスケールネットワーク
- Authors: Dafeng Zhang and Xiaobing Wang
- Abstract要約: 最近の研究は、畳み込みニューラルネットワーク(CNN)を用いた二重画素データに基づくデフォーカスデブロリングタスクにおいて優れた結果をもたらす。
デュアルピクセル画像デフォーカスデブロリングのための動的マルチスケールネットワークDMTNetを提案する。
- 参考スコア(独自算出の注目度): 1.408706290287121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works achieve excellent results in defocus deblurring task based on
dual-pixel data using convolutional neural network (CNN), while the scarcity of
data limits the exploration and attempt of vision transformer in this task. In
addition, the existing works use fixed parameters and network architecture to
deblur images with different distribution and content information, which also
affects the generalization ability of the model. In this paper, we propose a
dynamic multi-scale network, named DMTNet, for dual-pixel images defocus
deblurring. DMTNet mainly contains two modules: feature extraction module and
reconstruction module. The feature extraction module is composed of several
vision transformer blocks, which uses its powerful feature extraction
capability to obtain richer features and improve the robustness of the model.
The reconstruction module is composed of several Dynamic Multi-scale
Sub-reconstruction Module (DMSSRM). DMSSRM can restore images by adaptively
assigning weights to features from different scales according to the blur
distribution and content information of the input images. DMTNet combines the
advantages of transformer and CNN, in which the vision transformer improves the
performance ceiling of CNN, and the inductive bias of CNN enables transformer
to extract more robust features without relying on a large amount of data.
DMTNet might be the first attempt to use vision transformer to restore the
blurring images to clarity. By combining with CNN, the vision transformer may
achieve better performance on small datasets. Experimental results on the
popular benchmarks demonstrate that our DMTNet significantly outperforms
state-of-the-art methods.
- Abstract(参考訳): 最近の研究は、畳み込みニューラルネットワーク(cnn)を用いたデュアルピクセルデータに基づくデフォーカスデブラリングタスクにおいて優れた成果を上げているが、データの不足は視覚トランスフォーマの探索と試みを制限している。
さらに、既存の研究では、固定パラメータとネットワークアーキテクチャを用いて、異なる分布とコンテンツ情報を持つ画像を識別し、モデルの一般化能力にも影響を及ぼす。
本稿では,デュアルピクセル画像デフォーカスデブラリングのための動的マルチスケールネットワークdmtnetを提案する。
DMTNetは主に特徴抽出モジュールと再構成モジュールの2つのモジュールを含んでいる。
特徴抽出モジュールは複数の視覚トランスフォーマーブロックで構成されており、その強力な特徴抽出機能を使用してよりリッチな特徴を獲得し、モデルのロバスト性を向上させる。
リコンストラクションモジュールは、複数の動的マルチスケールサブリコンストラクションモジュール(dmssrm)から構成されている。
DMSSRMは、入力画像のぼやけた分布と内容情報に応じて、異なるスケールの特徴に重みを適応的に割り当てることで、画像を復元することができる。
dmtnetはtransformerとcnnの利点を組み合わせることで、vision transformerはcnnのパフォーマンス天井を改善し、cnnのインダクティブバイアスにより、transformerは大量のデータに頼ることなくより堅牢な特徴を抽出することができる。
DMTNetは、視覚変換器を使ってぼやけた画像を明瞭に復元する最初の試みかもしれない。
CNNと組み合わせることで、ビジョントランスフォーマーは小さなデータセットでより良いパフォーマンスを達成することができる。
一般的なベンチマーク実験の結果,DMTNetは最先端の手法よりも優れていた。
関連論文リスト
- CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction [14.377544481394013]
CTA-NetはCNNとViTを組み合わせて、長距離依存関係をキャプチャするトランスフォーマーと、ローカライズされた特徴を抽出するCNNを備えている。
この統合により、詳細なローカルおよびより広いコンテキスト情報の効率的な処理が可能になる。
10万以上のサンプルを持つ小規模データセットの実験は、CTA-Netが優れたパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2024-10-15T09:27:26Z) - Multiscale Low-Frequency Memory Network for Improved Feature Extraction
in Convolutional Neural Networks [13.815116154370834]
本稿では,Multiscale Low-Frequency Memory (MLFM) Networkを提案する。
MLFMは低周波情報を効率よく保存し、目標とするコンピュータビジョンタスクの性能を向上させる。
我々の研究は、既存のCNN基盤の上に構築され、コンピュータビジョンの今後の進歩の道を開く。
論文 参考訳(メタデータ) (2024-03-13T00:48:41Z) - FocDepthFormer: Transformer with latent LSTM for Depth Estimation from Focal Stack [11.433602615992516]
本稿では,トランスフォーマーをLSTMモジュールとCNNデコーダと統合した新しいトランスフォーマーネットワークFocDepthFormerを提案する。
LSTMを組み込むことで、FocDepthFormerは大規模な単分子RGB深さ推定データセットで事前トレーニングすることができる。
我々のモデルは、複数の評価指標で最先端のアプローチより優れています。
論文 参考訳(メタデータ) (2023-10-17T11:53:32Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - MCTNet: A Multi-Scale CNN-Transformer Network for Change Detection in
Optical Remote Sensing Images [7.764449276074902]
MCTNetと呼ばれるマルチスケールCNN変換器構造に基づくハイブリッドネットワークを提案する。
MCTNetは既存の最先端CD法よりも優れた検出性能が得られることを示す。
論文 参考訳(メタデータ) (2022-10-14T07:54:28Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。