論文の概要: SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM
- arxiv url: http://arxiv.org/abs/2411.06318v1
- Date: Sun, 10 Nov 2024 00:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:25.047834
- Title: SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM
- Title(参考訳): SEM-Net:空間的に拡張されたSSMを用いた画像描画のための効率的なピクセルモデリング
- Authors: Shuang Chen, Haozheng Zhang, Amir Atapour-Abarghouei, Hubert P. H. Shum,
- Abstract要約: 画像の塗装は、画像の既知の領域の情報に基づいて、部分的に損傷した画像の修復を目的としている。
SEM-Netは、新しいビジュアル・ステート・スペース・モデル(SSM)ビジョン・ネットワークであり、画像の劣化をピクセルレベルでモデル化し、状態空間における長距離依存(LRD)をキャプチャする。
- 参考スコア(独自算出の注目度): 11.447968918063335
- License:
- Abstract: Image inpainting aims to repair a partially damaged image based on the information from known regions of the images. \revise{Achieving semantically plausible inpainting results is particularly challenging because it requires the reconstructed regions to exhibit similar patterns to the semanticly consistent regions}. This requires a model with a strong capacity to capture long-range dependencies. Existing models struggle in this regard due to the slow growth of receptive field for Convolutional Neural Networks (CNNs) based methods and patch-level interactions in Transformer-based methods, which are ineffective for capturing long-range dependencies. Motivated by this, we propose SEM-Net, a novel visual State Space model (SSM) vision network, modelling corrupted images at the pixel level while capturing long-range dependencies (LRDs) in state space, achieving a linear computational complexity. To address the inherent lack of spatial awareness in SSM, we introduce the Snake Mamba Block (SMB) and Spatially-Enhanced Feedforward Network. These innovations enable SEM-Net to outperform state-of-the-art inpainting methods on two distinct datasets, showing significant improvements in capturing LRDs and enhancement in spatial consistency. Additionally, SEM-Net achieves state-of-the-art performance on motion deblurring, demonstrating its generalizability. Our source code will be released in https://github.com/ChrisChen1023/SEM-Net.
- Abstract(参考訳): 画像の塗装は、画像の既知の領域の情報に基づいて、部分的に損傷した画像の修復を目的としている。
意味論的に妥当な塗装結果を得るには、意味的一貫した領域に類似したパターンを示すために再構成された領域を必要とするため、特に困難である。
これは、長距離依存関係をキャプチャする強力なキャパシティを持つモデルを必要とする。
既存のモデルでは、Convolutional Neural Networks(CNN)ベースのメソッドに対する受容場の成長が遅いことや、Transformerベースのメソッドにおけるパッチレベルのインタラクションが、長距離依存関係のキャプチャに有効でないため、この点において苦労している。
そこで我々はSEM-Netを提案する。これは新しいビジュアル・ステート・スペース・モデル(SSM)ヴィジュアル・ネットワークで、劣化した画像をピクセルレベルでモデル化し、状態空間における長距離依存(LRD)をキャプチャし、線形計算複雑性を実現する。
SSMにおける空間認識の欠如に対処するために,Snake Mamba Block (SMB)とSpatially-Enhanced Feedforward Networkを導入する。
これらのイノベーションにより、SEM-Netは2つの異なるデータセット上で最先端の塗装方法より優れ、RDDのキャプチャと空間整合性の向上に大きな改善が見られた。
さらに、SEM-Netは、その一般化性を実証し、動作遅延に関する最先端のパフォーマンスを達成する。
ソースコードはhttps://github.com/ChrisChen1023/SEM-Net.comで公開されます。
関連論文リスト
- DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Image Forgery Localization with State Space Models [6.6222439382291]
選択SSMを利用した画像フォージェリローカライズ手法であるLoMaを提案する。
LoMaは、空間領域を横切り、改ざんされた画像を順序付けられたパッチシーケンスに変換するために、アトラス選択的スキャンを使用する。
これは、SSMベースのモデルに基づいて構築された最初の画像フォージェリーローカライゼーションモデルである。
論文 参考訳(メタデータ) (2024-12-15T15:10:53Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model [7.842507196763463]
IRSRMambaはマルチスケール適応のためのウェーブレット変換特徴変調を統合する新しいフレームワークである。
IRSRMambaはPSNR、SSIM、知覚品質において最先端の手法より優れている。
この研究は、高忠実度赤外線画像強調のための有望な方向として、Mambaベースのアーキテクチャを確立する。
論文 参考訳(メタデータ) (2024-05-16T07:49:24Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - Accurate and Lightweight Image Super-Resolution with Model-Guided Deep
Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。
MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。
RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2020-09-14T08:23:37Z) - Enhanced Residual Networks for Context-based Image Outpainting [0.0]
深いモデルは、保持された情報を通してコンテキストや外挿を理解するのに苦労する。
現在のモデルでは、生成的敵ネットワークを使用して、局所的な画像特徴の整合性が欠如し、偽のように見える結果を生成する。
本稿では,局所的・大域的判別器の使用と,ネットワークの符号化部における残差ブロックの追加という,この問題を改善するための2つの方法を提案する。
論文 参考訳(メタデータ) (2020-05-14T05:14:26Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。