論文の概要: MSP-Former: Multi-Scale Projection Transformer for Single Image
Desnowing
- arxiv url: http://arxiv.org/abs/2207.05621v1
- Date: Tue, 12 Jul 2022 15:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 14:31:04.299466
- Title: MSP-Former: Multi-Scale Projection Transformer for Single Image
Desnowing
- Title(参考訳): msp-former: 単一画像認識のためのマルチスケールプロジェクショントランス
- Authors: Sixiang Chen, Tian Ye, Yun Liu, Taodong Liao, Yi Ye, Erkang Chen
- Abstract要約: 1枚の画像から雪を除去する作業に視覚変換器を適用した。
チャネルに沿って分割された並列ネットワークアーキテクチャを提案し、局所的な特徴改善とグローバルな情報モデリングを別々に行う。
実験では,本手法の優位性を示すため,広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 6.22867695581195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image restoration of snow scenes in severe weather is a difficult task. Snow
images have complex degradations and are cluttered over clean images, changing
the distribution of clean images. The previous methods based on CNNs are
challenging to remove perfectly in restoring snow scenes due to their local
inductive biases' lack of a specific global modeling ability. In this paper, we
apply the vision transformer to the task of snow removal from a single image.
Specifically, we propose a parallel network architecture split along the
channel, performing local feature refinement and global information modeling
separately. We utilize a channel shuffle operation to combine their respective
strengths to enhance network performance. Second, we propose the MSP module,
which utilizes multi-scale avgpool to aggregate information of different sizes
and simultaneously performs multi-scale projection self-attention on multi-head
self-attention to improve the representation ability of the model under
different scale degradations. Finally, we design a lightweight and simple local
capture module, which can refine the local capture capability of the model.
In the experimental part, we conduct extensive experiments to demonstrate the
superiority of our method. We compared the previous snow removal methods on
three snow scene datasets. The experimental results show that our method
surpasses the state-of-the-art methods with fewer parameters and computation.
We achieve substantial growth by 1.99dB and SSIM 0.03 on the CSD test dataset.
On the SRRS and Snow100K datasets, we also increased PSNR by 2.47dB and 1.62dB
compared with the Transweather approach and improved by 0.03 in SSIM. In the
visual comparison section, our MSP-Former also achieves better visual effects
than existing methods, proving the usability of our method.
- Abstract(参考訳): 厳しい天候下での雪景色の復元は難しい作業である。
雪のイメージは複雑な劣化があり、クリーンなイメージの上に散らばり、クリーンなイメージの分布を変化させる。
cnnに基づく以前の手法では、局所的な帰納的バイアスによる特定のグローバルモデリング能力の欠如により、雪景色の復元が困難であった。
本稿では,1枚の画像から雪を除去する作業に視覚変換器を適用した。
具体的には,並列ネットワークアーキテクチャをチャネルに沿って分割し,局所的な特徴の洗練とグローバル情報モデリングを別々に行うことを提案する。
チャネルシャッフル演算を用いてそれぞれの強みを組み合わせてネットワーク性能を向上させる。
第2に,マルチスケールアバプールを用いて異なるサイズの情報を集約し,マルチヘッド自己アテンションにマルチスケールプロジェクション自己アテンションを同時に実行し,異なるスケール劣化下でのモデルの表現能力を向上するMPPモジュールを提案する。
最後に,軽量でシンプルなローカルキャプチャモジュールを設計し,モデルのローカルキャプチャ機能を改良する。
実験では,本手法の優位性を示すため,広範な実験を行った。
過去の除雪手法を3つの積雪現場データセットで比較した。
実験の結果,本手法はパラメータや計算量が少なく,最先端の手法を上回っていることがわかった。
CSDテストデータセット上で1.99dBとSSIM 0.03の大幅な成長を実現した。
SRRSとSnow100Kのデータセットでは、Transweatherアプローチと比較してPSNRが2.47dBと1.62dBに増加し、SSIMでは0.03に改善した。
視覚的比較セクションでは,既存の手法よりも優れた視覚効果を実現し,提案手法の有用性を実証する。
関連論文リスト
- NeuSD: Surface Completion with Multi-View Text-to-Image Diffusion [56.98287481620215]
本稿では,対象物の一部のみを捉えた複数の画像から3次元表面再構成を行う手法を提案する。
提案手法は, 表面の可視部分の再構成に神経放射場を用いた表面再構成法と, SDS (Score Distillation Sampling) 方式で事前学習した2次元拡散モデルを用いて, 可観測領域の形状を再現する手法である。
論文 参考訳(メタデータ) (2023-12-07T19:30:55Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Star-Net: Improving Single Image Desnowing Model With More Efficient
Connection and Diverse Feature Interaction [0.8602553195689513]
本稿では,Star-Netと呼ばれる新しい単一画像認識ネットワークを提案する。
まず、スター型スキップ接続(SSC)を設計し、全ての異なる機能のための情報チャネルを確立する。
第2に、Star-NetのベースモジュールとしてMulti-Stage Interactive Transformer(MIT)を提案する。
第3に, 積雪粒子と積雪霧を除去するデジネートフィルタモジュール (DFM) を提案する。
論文 参考訳(メタデータ) (2023-03-17T14:03:49Z) - Event-guided Multi-patch Network with Self-supervision for Non-uniform
Motion Deblurring [113.96237446327795]
本稿では,ぼやけた画像やビデオを扱うための,イベント誘導型深層階層型マルチパッチネットワークを提案する。
また、ビデオ内の複雑なぼやけに対処するために、動画に含まれる動きの手がかりを利用するイベント誘導アーキテクチャを提案する。
我々のMPNは、現在のマルチスケール手法に比べて40倍高速なランタイムでGoProとVideoDeblurringデータセットの最先端を達成しています。
論文 参考訳(メタデータ) (2023-02-14T15:58:00Z) - Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot
Classification via Stable Diffusion [22.237426507711362]
モデル非依存ゼロショット分類(モデル非依存ゼロショット分類、英: Model-Agnostic Zero-Shot Classification、MA-ZSC)とは、訓練中に実際の画像を使わずに、実際の画像を分類するための非特異な分類アーキテクチャを訓練することである。
近年の研究では、拡散モデルを用いて合成訓練画像を生成することが、MA-ZSCに対処するための潜在的な解決策となることが示されている。
本研究では,事前学習した拡散モデルを用いてテキスト・画像生成プロセスの修正を行い,多様性を高める。
論文 参考訳(メタデータ) (2023-02-07T07:13:53Z) - Cross-domain Self-supervised Framework for Photoacoustic Computed
Tomography Image Reconstruction [4.769412124596113]
純粋なトランスモデルを用いたクロスドメイン非教師付き再構築(CDUR)戦略を提案する。
モデルに基づく自己監督型再構成を実装し、自己監督を利用して計測と画像の整合性を強制する。
マウスのin-vivo PACTデータセットの実験結果は、我々の教師なしフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2023-01-17T03:47:01Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - SnowFormer: Scale-aware Transformer via Context Interaction for Single
Image Desnowing [9.747362856056162]
本研究では,SnowFormerと呼ばれる強力なアーキテクチャを提案する。
エンコーダでスケール対応の特徴集約を行い、様々な劣化の豊富な雪情報をキャプチャする。
また、デコーダに新しいコンテキストインタラクショントランスフォーマーブロック(Context Interaction Transformer Block)を使用し、ローカル詳細とグローバル情報のコンテキストインタラクションを実行する。
論文 参考訳(メタデータ) (2022-08-20T15:01:09Z) - Towards Real-time High-Definition Image Snow Removal: Efficient Pyramid
Network with Asymmetrical Encoder-decoder Architecture [6.682410871522934]
リアルタイムHD画像認識のための非対称エンコーダデコーダアーキテクチャを用いた高効率ピラミッドネットワークを開発した。
提案手法は,HDおよびUltra-HD画像の処理困難を効果的に処理し,より複雑な処理性能のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-07-12T15:18:41Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。