論文の概要: Vision Transformers for Single Image Dehazing
- arxiv url: http://arxiv.org/abs/2204.03883v1
- Date: Fri, 8 Apr 2022 07:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 13:09:35.889406
- Title: Vision Transformers for Single Image Dehazing
- Title(参考訳): シングルイメージデハージングのための視覚変換器
- Authors: Yuda Song, Zhuqing He, Hui Qian, Xin Du
- Abstract要約: 画像デハジングは、ヘイズ画像から潜伏したヘイズフリー画像を推定する、代表的な低レベル視覚タスクである。
本稿では,修正正規化層,アクティベーション関数,空間情報アグリゲーションスキームなど,様々な改良を施したDehazeFormerを提案する。
我々の大規模モデルは、SOTS屋内セットのPSNRが40dBを超える最初の手法であり、従来の最先端手法よりも劇的に優れていた。
- 参考スコア(独自算出の注目度): 21.93432587359348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image dehazing is a representative low-level vision task that estimates
latent haze-free images from hazy images. In recent years, convolutional neural
network-based methods have dominated image dehazing. However, vision
Transformers, which has recently made a breakthrough in high-level vision
tasks, has not brought new dimensions to image dehazing. We start with the
popular Swin Transformer and find that several of its key designs are
unsuitable for image dehazing. To this end, we propose DehazeFormer, which
consists of various improvements, such as the modified normalization layer,
activation function, and spatial information aggregation scheme. We train
multiple variants of DehazeFormer on various datasets to demonstrate its
effectiveness. Specifically, on the most frequently used SOTS indoor set, our
small model outperforms FFA-Net with only 25% #Param and 5% computational cost.
To the best of our knowledge, our large model is the first method with the PSNR
over 40 dB on the SOTS indoor set, dramatically outperforming the previous
state-of-the-art methods. We also collect a large-scale realistic remote
sensing dehazing dataset for evaluating the method's capability to remove
highly non-homogeneous haze.
- Abstract(参考訳): 画像デハジングは、ヘイズ画像から潜伏したヘイズフリー画像を推定する、代表的な低レベル視覚タスクである。
近年、畳み込みニューラルネットワークに基づく手法が画像デハジングを支配している。
しかし、最近ハイレベルな視覚タスクを突破したビジョントランスフォーマーは、画像のデハージングに新しい次元をもたらすことはなかった。
人気の高いswin transformerから始めて、その重要な設計のいくつかが、画像のデハザーズに適さないことを見出します。
そこで本研究では,修正正規化層,活性化関数,空間情報集約スキームといった様々な改良を施したdehazeformerを提案する。
さまざまなデータセット上で,DehazeFormerの複数の変種をトレーニングして,その有効性を示す。
具体的には、最も頻繁に使用されるSOTS屋内セットにおいて、私たちの小さなモデルは、25%の#Paramと5%の計算コストでFFA-Netより優れています。
我々の知る限り、我々の大きなモデルはSOTS屋内セットのPSNRが40dBを超える最初の手法であり、従来の最先端手法よりも劇的に優れている。
また,高度に非均質なヘイズを除去する方法の能力を評価するために,大規模リモートセンシングデヘイジングデータセットを収集した。
関連論文リスト
- DRACO-DehazeNet: An Efficient Image Dehazing Network Combining Detail Recovery and a Novel Contrastive Learning Paradigm [3.649619954898362]
Detail RecoveryとContrastive DehazeNetは、特定のデハズされたシーンコンテキストへの拡張を調整した、詳細なイメージリカバリネットワークである。
大きな革新は、新しい四重項損失に基づくコントラストデハージングパラダイムによって達成された、限られたデータで効果的にトレーニングできることである。
論文 参考訳(メタデータ) (2024-10-18T16:48:31Z) - Haze-Aware Attention Network for Single-Image Dehazing [10.881567541939653]
本稿では,HAAM(Haze-Aware Attention Module)とMFEM(Multiscale Frequency Enhancement Module)を組み合わせたデハージングネットワークを提案する。
HAAMは大気散乱モデルにインスパイアされ、物理的原理を高次元の特徴に巧みに組み込んで目的の脱ハージングを行う。
我々の研究は、画像デハジングの分野を前進させるだけでなく、コンピュータビジョンの幅広い応用のための注意機構の設計に関する洞察も提供する。
論文 参考訳(メタデータ) (2024-07-16T08:42:39Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - A GAN-Based Input-Size Flexibility Model for Single Image Dehazing [16.83211957781034]
本稿では,単一画像デハジングの課題に焦点をあてる。
ヘイズフリーの画像を直接生成する新しいモデルを設計します。
この理由と画像サイズを考慮し,単一画像デハジングのための新たな入力サイズフレキシビリティ条件付き生成逆ネットワーク(cgan)を提案する。
論文 参考訳(メタデータ) (2021-02-19T08:27:17Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z) - FD-GAN: Generative Adversarial Networks with Fusion-discriminator for
Single Image Dehazing [48.65974971543703]
画像デハージングのためのFusion-Discriminator (FD-GAN) を用いた完全エンドツーエンドのジェネレータネットワークを提案する。
我々のモデルは、より自然でリアルなデハズド画像を生成することができ、色歪みは少なく、アーティファクトも少ない。
実験により, 提案手法は, 公開合成データセットと実世界の画像の両方において, 最先端の性能に達することが示された。
論文 参考訳(メタデータ) (2020-01-20T04:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。