論文の概要: DehazeDCT: Towards Effective Non-Homogeneous Dehazing via Deformable Convolutional Transformer
- arxiv url: http://arxiv.org/abs/2407.05169v1
- Date: Fri, 24 May 2024 10:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 14:29:03.394852
- Title: DehazeDCT: Towards Effective Non-Homogeneous Dehazing via Deformable Convolutional Transformer
- Title(参考訳): DehazeDCT: 変形可能な畳み込み変換器による非均一脱ハージングの実現に向けて
- Authors: Wei Dong, Han Zhou, Ruiyi Wang, Xiaohong Liu, Guangtao Zhai, Jun Chen,
- Abstract要約: DehazeDCT(Deformable Convolutional Transformer-like Architecture)による非均一なデハージング手法を提案する。
まず,変形可能な畳み込みv4に基づく変圧器型ネットワークを設計し,長距離依存性と適応型空間アグリゲーション機能を実現する。
さらに,ライトウェイトなRetinexインスパイアされた変圧器を活用し,色補正と構造改善を実現する。
- 参考スコア(独自算出の注目度): 43.807338032286346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image dehazing, a pivotal task in low-level vision, aims to restore the visibility and detail from hazy images. Many deep learning methods with powerful representation learning capability demonstrate advanced performance on non-homogeneous dehazing, however, these methods usually struggle with processing high-resolution images (e.g., $4000 \times 6000$) due to their heavy computational demands. To address these challenges, we introduce an innovative non-homogeneous Dehazing method via Deformable Convolutional Transformer-like architecture (DehazeDCT). Specifically, we first design a transformer-like network based on deformable convolution v4, which offers long-range dependency and adaptive spatial aggregation capabilities and demonstrates faster convergence and forward speed. Furthermore, we leverage a lightweight Retinex-inspired transformer to achieve color correction and structure refinement. Extensive experiment results and highly competitive performance of our method in NTIRE 2024 Dense and Non-Homogeneous Dehazing Challenge, ranking second among all 16 submissions, demonstrate the superior capability of our proposed method. The code is available: https://github.com/movingforward100/Dehazing_R.
- Abstract(参考訳): 低レベルの視覚において重要なタスクである画像のデハジングは、ぼんやりとした画像から視界と細部を復元することを目的としている。
強力な表現学習能力を持つ多くの深層学習手法は、非均一なデハジングにおいて高度な性能を示すが、これらの手法は通常、高い計算要求のため、高解像度画像(例えば、4000 \times 6000$)の処理に苦労する。
これらの課題に対処するために,Deformable Convolutional Transformer-like Architecture (DehazeDCT) を用いた非均一なデハージング手法を提案する。
具体的には、変形可能な畳み込みv4に基づく変換器型ネットワークを設計し、長距離依存と適応空間集約機能を提供し、より高速な収束と前進速度を示す。
さらに,ライトウェイトなRetinexインスパイアされた変圧器を活用し,色補正と構造改善を実現する。
NTIRE 2024 Dense and Non-homogeneous Dehazing Challengeでは,全16項目中2位にランクインし,提案手法の優れた性能を示した。
コードは、https://github.com/movingforward100/Dehazing_R.comで入手できる。
関連論文リスト
- Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-Resolution [6.367865391518726]
トランスフォーマーベースモデルは、画像超解像(SR)を含む低レベル視覚タスクにおいて顕著な結果を得た
グローバルにより多くの入力ピクセルを活性化するために、ハイブリッドアテンションモデルが提案されている。
ウェーブレット損失を利用してTransformerモデルをトレーニングし、定量的および主観的性能を向上させる。
論文 参考訳(メタデータ) (2024-04-17T11:25:19Z) - ViTAR: Vision Transformer with Any Resolution [80.95324692984903]
ビジョントランスフォーマーは、トレーニング中に見られるものと異なる処理解像度で性能低下を経験する。
複数の解像度で一貫した位置認識を提供するために、視覚変換器にファジィ位置符号化を導入する。
我々のモデルであるViTARは、1120x1120の解像度で83.3%、4032x4032の解像度で80.4%の精度で、優れた適応性を示す。
論文 参考訳(メタデータ) (2024-03-27T08:53:13Z) - FiT: Flexible Vision Transformer for Diffusion Model [85.9614398331594]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。
静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。
総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文 参考訳(メタデータ) (2024-02-19T18:59:07Z) - LKFormer: Large Kernel Transformer for Infrared Image Super-Resolution [5.478440050117844]
本稿では,LKFormer(Large Kernel Transformer)と呼ばれる強力なトランスモデルを提案する。
これは主に、非局所的な特徴モデリングを実行するために、大きなカーネルとの深度的な畳み込みを利用する。
我々は,GPFN(Gated-Pixel Feed-Forward Network)と呼ばれる新しいフィードフォワードネットワーク構造を考案し,ネットワーク内の情報フローを管理するLKFormerの能力を強化した。
論文 参考訳(メタデータ) (2024-01-22T11:28:24Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。