論文の概要: Hybrid Local-Global Transformer for Image Dehazing
- arxiv url: http://arxiv.org/abs/2109.07100v1
- Date: Wed, 15 Sep 2021 06:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 02:02:20.439468
- Title: Hybrid Local-Global Transformer for Image Dehazing
- Title(参考訳): 画像デハジング用ハイブリッド局所グローバル変圧器
- Authors: Dong Zhao, Jia Li, Hongyu Li, and Long Xu
- Abstract要約: Vision Transformer (ViT)は、ハイレベルかつ低レベルなビジョンタスクにおいて素晴らしいパフォーマンスを示している。
そこで我々は,Hybrid Local-Global Vision Transformer (HyLoG-ViT) という新しいViTアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 18.468149424220424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the Vision Transformer (ViT) has shown impressive performance on
high-level and low-level vision tasks. In this paper, we propose a new ViT
architecture, named Hybrid Local-Global Vision Transformer (HyLoG-ViT), for
single image dehazing. The HyLoG-ViT block consists of two paths, the local ViT
path and the global ViT path, which are used to capture local and global
dependencies. The hybrid features are fused via convolution layers. As a
result, the HyLoG-ViT reduces the computational complexity and introduces
locality in the networks. Then, the HyLoG-ViT blocks are incorporated within
our dehazing networks, which jointly learn the intrinsic image decomposition
and image dehazing. Specifically, the network consists of one shared encoder
and three decoders for reflectance prediction, shading prediction, and
haze-free image generation. The tasks of reflectance and shading prediction can
produce meaningful intermediate features that can serve as complementary
features for haze-free image generation. To effectively aggregate the
complementary features, we propose a complementary features selection module
(CFSM) to select the useful ones for image dehazing. Extensive experiments on
homogeneous, non-homogeneous, and nighttime dehazing tasks reveal that our
proposed Transformer-based dehazing network can achieve comparable or even
better performance than CNNs-based dehazing models.
- Abstract(参考訳): 近年、ViT(Vision Transformer)は、高レベルかつ低レベルな視覚タスクにおいて顕著な性能を示している。
本稿では,単一画像デハジングのためのハイブリッド・ローカル・グローバル・ビジョントランスフォーマ(hylog-vit)という新しいvitアーキテクチャを提案する。
HyLoG-ViTブロックは、ローカルなViTパスとグローバルなViTパスという2つのパスで構成される。
ハイブリッド機能は畳み込み層を介して融合される。
その結果、HyLoG-ViTは計算複雑性を低減し、ネットワークの局所性を導入する。
そして、HyLoG-ViTブロックをデハジングネットワークに組み込んで、本質的な画像分解と画像デハジングを共同で学習する。
具体的には、1つの共有エンコーダと3つのデコーダから構成され、反射率予測、シェーディング予測、ヘイズフリー画像生成を行う。
反射率とシェーディング予測のタスクは、ヘイズフリー画像生成の補完的特徴として機能する有意義な中間特徴を生み出すことができる。
補足的特徴を効果的に集約するために,画像デハージングに有用な特徴を選択するための補完的特徴選択モジュール(CFSM)を提案する。
提案する変圧器型デハジングネットワークは,cnnsによるデハジングモデルと同等,あるいはそれ以上の性能を達成可能であることが,均一,非均一,夜間デハジングタスクに関する広範な実験により明らかになった。
関連論文リスト
- HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - HEAL-SWIN: A Vision Transformer On The Sphere [4.379414115481346]
高解像度の広角魚眼画像は、自律運転などのロボティクス応用においてますます重要になっている。
天体物理学や宇宙論で用いられる高度に均一な階層的等角領域等緯線線格子を組み合わせたHEAL-SWIN変換器を提案する。
HEAL-SWINでは、HEALPixグリッドのネスト構造を用いてSWIN変換器のパッチ処理とウィンドウ処理を行い、最小計算オーバーヘッドで球面表現を処理できる。
論文 参考訳(メタデータ) (2023-07-14T12:46:59Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks
for Image Super-Resolution [83.47467223117361]
画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。
トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。
この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-01-05T12:06:47Z) - Efficient Image Super-Resolution with Feature Interaction Weighted Hybrid Network [101.53907377000445]
軽量画像超解像は、低解像度画像から低計算コストで高解像度画像を再構成することを目的としている。
既存の方法では、活性化関数による中間層の特徴が失われる。
本稿では,中間的特徴損失が再構成品質に与える影響を最小限に抑えるために,特徴相互作用重み付きハイブリッドネットワーク(FIWHN)を提案する。
論文 参考訳(メタデータ) (2022-12-29T05:57:29Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - ViTGAN: Training GANs with Vision Transformers [46.769407314698434]
視覚変換器(ViT)は、視覚固有の誘導バイアスを少なくしながら、画像認識に競争力を発揮している。
ViTを用いたGANのトレーニングのための新しい正規化手法をいくつか紹介する。
我々のアプローチはViTGANと呼ばれ、3つのデータセット上の主要なCNNベースのGANモデルに匹敵する性能を実現している。
論文 参考訳(メタデータ) (2021-07-09T17:59:30Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - LT-GAN: Self-Supervised GAN with Latent Transformation Detection [10.405721171353195]
画像の生成品質と多様性を改善するための自己教師付きアプローチ(LT-GAN)を提案する。
我々は,提案するLT-GANが,他の最先端のトレーニング技術と効果的に組み合わせて,付加的なメリットを享受できることを実験的に実証した。
論文 参考訳(メタデータ) (2020-10-19T22:09:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。