論文の概要: Parallel Cross Strip Attention Network for Single Image Dehazing
- arxiv url: http://arxiv.org/abs/2405.05811v1
- Date: Thu, 9 May 2024 14:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 13:02:50.706573
- Title: Parallel Cross Strip Attention Network for Single Image Dehazing
- Title(参考訳): シングルイメージデハジングのための並列クロスストリップ注意ネットワーク
- Authors: Lihan Tong, Yun Liu, Tian Ye, Weijia Li, Liyuan Chen, Erkang Chen,
- Abstract要約: 単一画像デハジングは、ぼんやりとしたイメージを復元し、透明で高品質なビジュアルを作り出すことを目的としている。
伝統的な畳み込みモデルは、受容野のサイズが限られているため、長距離依存に苦しむ。
マルチスケール戦略を用いた並列Stripe Cross Attention (PCSA) に基づく新しいデハージングネットワークを提案する。
- 参考スコア(独自算出の注目度): 15.246376325081973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of single image dehazing is to restore hazy images and produce clear, high-quality visuals. Traditional convolutional models struggle with long-range dependencies due to their limited receptive field size. While Transformers excel at capturing such dependencies, their quadratic computational complexity in relation to feature map resolution makes them less suitable for pixel-to-pixel dense prediction tasks. Moreover, fixed kernels or tokens in most models do not adapt well to varying blur sizes, resulting in suboptimal dehazing performance. In this study, we introduce a novel dehazing network based on Parallel Stripe Cross Attention (PCSA) with a multi-scale strategy. PCSA efficiently integrates long-range dependencies by simultaneously capturing horizontal and vertical relationships, allowing each pixel to capture contextual cues from an expanded spatial domain. To handle different sizes and shapes of blurs flexibly, We employs a channel-wise design with varying convolutional kernel sizes and strip lengths in each PCSA to capture context information at different scales.Additionally, we incorporate a softmax-based adaptive weighting mechanism within PCSA to prioritize and leverage more critical features.
- Abstract(参考訳): 単一画像デハジングの目的は、ぼんやりしたイメージを復元し、鮮明で高品質なビジュアルを作り出すことである。
伝統的な畳み込みモデルは、受容野のサイズが限られているため、長距離依存に苦しむ。
トランスフォーマーはそのような依存関係を捉えるのに優れていますが、特徴マップの解像度に関する2次計算の複雑さは、ピクセル単位の高密度予測タスクには適していません。
さらに、多くのモデルにおける固定されたカーネルやトークンは、様々な大きさのぼやけたサイズにうまく適応しておらず、結果として準最適デハージング性能がもたらされる。
本研究では,マルチスケール戦略を用いた並列Stripe Cross Attention (PCSA) に基づくデハージングネットワークを提案する。
PCSAは、水平と垂直の関係を同時に捉え、各ピクセルが拡張空間領域からコンテキストキューをキャプチャできるようにすることで、長距離依存関係を効率的に統合する。
ブラーの異なるサイズと形状を柔軟に扱えるように,各PCSAのコンボリューションカーネルサイズとストリップ長の異なるチャネルワイド設計を用いて,異なるスケールでコンテキスト情報をキャプチャし,さらに,PCSAにソフトマックスベースの適応重み付け機構を組み込んで,より重要な特徴の優先順位付けと活用を行う。
関連論文リスト
- Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models [22.702352459581434]
サーペントは高解像度画像復元のための効率的なアーキテクチャである。
本稿では,Serpentが最先端技術に匹敵する再現性が得られることを示す。
論文 参考訳(メタデータ) (2024-03-26T17:43:15Z) - Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring [25.36888929483233]
そこで本研究では,シングルインプットとマルチアウトプット(SIMO)に基づくマルチスケールネットワークを提案する。
実世界の軌道特性を学習可能なウェーブレット変換モジュールと組み合わせて、ぼやけた画像から鋭い画像へのステップバイステップ遷移の方向連続性と周波数特性に着目した。
論文 参考訳(メタデータ) (2023-12-29T02:59:40Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for
Semi-supervised Polyp Segmentation [52.06525450636897]
大腸癌の早期診断と治療において, 自動ポリープセグメンテーションが重要な役割を担っている。
既存の手法は、完全に教師されたトレーニングに大きく依存しており、大量のラベル付きデータと時間を要するピクセル単位のアノテーションを必要とする。
大腸内視鏡画像からの半教師付きポリープ(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - From Coarse to Fine: Hierarchical Pixel Integration for Lightweight
Image Super-Resolution [41.0555613285837]
トランスフォーマーモデルによる画像超解像(SR)の競争性能の向上
SRネットワークのローカルマップ(LAM)の解釈から洞察を得た新しいアテンションブロックを提案する。
細部では、パッチ内自己注意属性(IPSA)モジュールを使用して、局所パッチ内の長距離画素依存性をモデル化する。
論文 参考訳(メタデータ) (2022-11-30T06:32:34Z) - Lightweight Long-Range Generative Adversarial Networks [58.16484259508973]
本稿では、画像生成プロセスにおける長距離依存性を効果的にキャプチャできる、新しい軽量な生成対向ネットワークを提案する。
提案した長距離モジュールは、トレーニングを安定させる正規化として機能し、画素間の負の関係を強調することができる。
我々の新しいロングレンジモジュールは、いくつかの追加パラメータしか導入せず、既存のモデルに簡単に挿入して、ロングレンジの依存関係をキャプチャする。
論文 参考訳(メタデータ) (2022-09-08T13:05:01Z) - Adaptive Single Image Deblurring [43.02281823557039]
本稿では,画像間の大きなぼやけた変化を扱うために,効率的な画素適応化と特徴注意設計を提案する。
また、性能を大幅に向上させる効果的なコンテンツ認識グローバルローカルフィルタリングモジュールを提案する。
論文 参考訳(メタデータ) (2022-01-01T10:10:19Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。