論文の概要: U-shaped Vision Mamba for Single Image Dehazing
- arxiv url: http://arxiv.org/abs/2402.04139v2
- Date: Thu, 8 Feb 2024 09:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 11:30:29.168426
- Title: U-shaped Vision Mamba for Single Image Dehazing
- Title(参考訳): シングルイメージデハージングのためのU字型視覚マンバ
- Authors: Zhuoran Zheng and Chen Wu
- Abstract要約: 本論文では,効率的なシングルイメージデハージングネットワークであるVision Mamba(UVM-Net)を紹介する。
The State Space Sequence Models (SSMs)は、長いシーケンスを扱うパワーで知られる新しいディープシークエンスモデルであり、Bi-SSMブロックを設計する。
I/O処理時間なしで325倍の325ドル解像度画像(100FPS)を推測するには,テキスト0.009秒しかかからない。
- 参考スコア(独自算出の注目度): 8.134659382415185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, Transformer is the most popular architecture for image dehazing,
but due to its large computational complexity, its ability to handle long-range
dependency is limited on resource-constrained devices. To tackle this
challenge, we introduce the U-shaped Vision Mamba (UVM-Net), an efficient
single-image dehazing network. Inspired by the State Space Sequence Models
(SSMs), a new deep sequence model known for its power to handle long sequences,
we design a Bi-SSM block that integrates the local feature extraction ability
of the convolutional layer with the ability of the SSM to capture long-range
dependencies. Extensive experimental results demonstrate the effectiveness of
our method. Our method provides a more highly efficient idea of long-range
dependency modeling for image dehazing as well as other image restoration
tasks. The URL of the code is \url{https://github.com/zzr-idam/UVM-Net}. Our
method takes only \textbf{0.009} seconds to infer a $325 \times 325$ resolution
image (100FPS) without I/O handling time.
- Abstract(参考訳): 現在、トランスフォーマーは画像デハジングで最も一般的なアーキテクチャであるが、計算の複雑さが大きいため、長距離依存を扱う能力はリソース制約のあるデバイスに限定されている。
この課題に対処するために、効率的なシングルイメージデハージングネットワークであるUVM-Net(Vision Mamba)を導入する。
長いシーケンスを処理できることで知られる新しいディープシーケンスモデルであるState Space Sequence Models (SSM) にインスパイアされた我々は、畳み込み層の局所的特徴抽出能力と、長距離依存関係をキャプチャするSSMの機能を統合するBi-SSMブロックを設計した。
本手法の有効性を実験的に検証した。
本手法は,画像デハジングや画像復元作業において,より効率的な長距離依存性モデリング手法を提供する。
コードのURLは \url{https://github.com/zzr-idam/UVM-Net} である。
I/O処理時間なしで325ドルの325ドルの解像度画像 (100FPS) を推測するには, textbf{0.009} 秒しかかからない。
関連論文リスト
- SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM [11.447968918063335]
画像の塗装は、画像の既知の領域の情報に基づいて、部分的に損傷した画像の修復を目的としている。
SEM-Netは、新しいビジュアル・ステート・スペース・モデル(SSM)ビジョン・ネットワークであり、画像の劣化をピクセルレベルでモデル化し、状態空間における長距離依存(LRD)をキャプチャする。
論文 参考訳(メタデータ) (2024-11-10T00:35:14Z) - Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats [31.37432523412404]
Long-LRMは、A100 80G GPUでわずか1.3秒で960x540の解像度で32のソース画像を処理できる。
入力画像の処理に制限のある以前のフィードフォワードモデルとは異なり、Long-LRMはシーン全体を単一のフィードフォワードステップで再構築する。
論文 参考訳(メタデータ) (2024-10-16T17:54:06Z) - FC3DNet: A Fully Connected Encoder-Decoder for Efficient Demoir'eing [50.702284015455405]
textbfFully textbfConnected entextbfCoder-detextbfCoder based textbfDemoir'eing textbfNetwork (FC3DNet)を提案する。
FC3DNetはデコーダの各ステージに複数のスケールを持つ機能を包括的に利用する。
論文 参考訳(メタデータ) (2024-06-21T07:10:50Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation [16.476244833079182]
我々は,新しい3次元医用画像textbfSegmentation textbfMambaモデルであるSegMambaを紹介した。
SegMambaは、状態空間モデルの観点から、全ボリューム特徴モデリングに優れています。
BraTS2023データセットの実験では、SegMambaの有効性と効率が示されている。
論文 参考訳(メタデータ) (2024-01-24T16:17:23Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Lightweight Long-Range Generative Adversarial Networks [58.16484259508973]
本稿では、画像生成プロセスにおける長距離依存性を効果的にキャプチャできる、新しい軽量な生成対向ネットワークを提案する。
提案した長距離モジュールは、トレーニングを安定させる正規化として機能し、画素間の負の関係を強調することができる。
我々の新しいロングレンジモジュールは、いくつかの追加パラメータしか導入せず、既存のモデルに簡単に挿入して、ロングレンジの依存関係をキャプチャする。
論文 参考訳(メタデータ) (2022-09-08T13:05:01Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。