Fugu-MT 論文翻訳(概要): SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM

論文の概要: SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM

arxiv url: http://arxiv.org/abs/2411.06318v1
Date: Sun, 10 Nov 2024 00:35:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.158718
Title: SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM
Title（参考訳）: SEM-Net:空間的に拡張されたSSMを用いた画像描画のための効率的なピクセルモデリング
Authors: Shuang Chen, Haozheng Zhang, Amir Atapour-Abarghouei, Hubert P. H. Shum,
Abstract要約: 画像の塗装は、画像の既知の領域の情報に基づいて、部分的に損傷した画像の修復を目的としている。 SEM-Netは、新しいビジュアル・ステート・スペース・モデル(SSM)ビジョン・ネットワークであり、画像の劣化をピクセルレベルでモデル化し、状態空間における長距離依存(LRD)をキャプチャする。
参考スコア（独自算出の注目度）: 11.447968918063335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image inpainting aims to repair a partially damaged image based on the information from known regions of the images. \revise{Achieving semantically plausible inpainting results is particularly challenging because it requires the reconstructed regions to exhibit similar patterns to the semanticly consistent regions}. This requires a model with a strong capacity to capture long-range dependencies. Existing models struggle in this regard due to the slow growth of receptive field for Convolutional Neural Networks (CNNs) based methods and patch-level interactions in Transformer-based methods, which are ineffective for capturing long-range dependencies. Motivated by this, we propose SEM-Net, a novel visual State Space model (SSM) vision network, modelling corrupted images at the pixel level while capturing long-range dependencies (LRDs) in state space, achieving a linear computational complexity. To address the inherent lack of spatial awareness in SSM, we introduce the Snake Mamba Block (SMB) and Spatially-Enhanced Feedforward Network. These innovations enable SEM-Net to outperform state-of-the-art inpainting methods on two distinct datasets, showing significant improvements in capturing LRDs and enhancement in spatial consistency. Additionally, SEM-Net achieves state-of-the-art performance on motion deblurring, demonstrating its generalizability. Our source code will be released in https://github.com/ChrisChen1023/SEM-Net.
Abstract（参考訳）: 画像の塗装は、画像の既知の領域の情報に基づいて、部分的に損傷した画像の修復を目的としている。意味論的に妥当な塗装結果を得るには、意味的一貫した領域に類似したパターンを示すために再構成された領域を必要とするため、特に困難である。これは、長距離依存関係をキャプチャする強力なキャパシティを持つモデルを必要とする。既存のモデルでは、Convolutional Neural Networks(CNN)ベースのメソッドに対する受容場の成長が遅いことや、Transformerベースのメソッドにおけるパッチレベルのインタラクションが、長距離依存関係のキャプチャに有効でないため、この点において苦労している。そこで我々はSEM-Netを提案する。これは新しいビジュアル・ステート・スペース・モデル(SSM)ヴィジュアル・ネットワークで、劣化した画像をピクセルレベルでモデル化し、状態空間における長距離依存(LRD)をキャプチャし、線形計算複雑性を実現する。 SSMにおける空間認識の欠如に対処するために,Snake Mamba Block (SMB)とSpatially-Enhanced Feedforward Networkを導入する。これらのイノベーションにより、SEM-Netは2つの異なるデータセット上で最先端の塗装方法より優れ、RDDのキャプチャと空間整合性の向上に大きな改善が見られた。さらに、SEM-Netは、その一般化性を実証し、動作遅延に関する最先端のパフォーマンスを達成する。ソースコードはhttps://github.com/ChrisChen1023/SEM-Net.comで公開されます。

関連論文リスト

Moiré Zero: An Efficient and High-Performance Neural Architecture for Moiré Removal [8.464291713830127]
MZNetは,モアレパターンを効果的に除去し,モアレゼロ状態に画像が近づくように設計されたU字型ネットワークである。 MZNetは高解像度データセットで最先端のパフォーマンスを達成し、低解像度データセットで競合結果を提供する。
論文参考訳（メタデータ） (2025-07-30T06:16:35Z)
DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。 DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文参考訳（メタデータ） (2025-02-18T08:12:47Z)
Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。 GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。 GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-21T18:56:19Z)
Image Forgery Localization with State Space Models [6.6222439382291]
選択SSMを利用した画像フォージェリローカライズ手法であるLoMaを提案する。 LoMaは、空間領域を横切り、改ざんされた画像を順序付けられたパッチシーケンスに変換するために、アトラス選択的スキャンを使用する。これは、SSMベースのモデルに基づいて構築された最初の画像フォージェリーローカライゼーションモデルである。
論文参考訳（メタデータ） (2024-12-15T15:10:53Z)
XYScanNet: A State Space Model for Single Image Deblurring [6.9752432140704705]
ディープステートスペースモデル(SSM)は、CNNやTransformerネットワークに代わる有望な選択肢として浮上している。本研究では,スライスとスライスを交互に走査するスライス・アンド・スキャン方式を提案する。我々はXYScanNetを開発した。XYScanNetは軽量な機能融合モジュールと統合されたSSMアーキテクチャで、画像の劣化を改善できる。
論文参考訳（メタデータ） (2024-12-13T18:33:18Z)
Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement [51.557804095896174]
AsLE-SSMという,グローバルな局所的バランスの取れたコンテキストエンコーディングとチャネル間相互作用の促進に空間スペクトルSSMを用いる状態空間モデルを導入する。実験の結果,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約できることがわかった。
論文参考訳（メタデータ） (2024-08-01T15:14:10Z)
Image Deraining with Frequency-Enhanced State Space Model [2.9465623430708905]
本研究では,画像デライニングによる画像デライニングにSSMを導入し,DFSSM(Deraining Frequency-Enhanced State Space Model)を提案する。我々は,複数のカーネルサイズを持つ畳み込みを用いて,様々なスケールの劣化を効果的に捕捉する,新しい混合スケールゲート畳み込みブロックを開発した。合成および実世界の雨天画像データセットの実験により,我々の手法が最先端の手法を超越していることが判明した。
論文参考訳（メタデータ） (2024-05-26T07:45:12Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model [7.842507196763463]
IRSRMambaはマルチスケール適応のためのウェーブレット変換特徴変調を統合する新しいフレームワークである。 IRSRMambaはPSNR、SSIM、知覚品質において最先端の手法より優れている。この研究は、高忠実度赤外線画像強調のための有望な方向として、Mambaベースのアーキテクチャを確立する。
論文参考訳（メタデータ） (2024-05-16T07:49:24Z)
Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。 DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文参考訳（メタデータ） (2023-10-11T12:46:11Z)
SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文参考訳（メタデータ） (2022-12-06T13:30:18Z)
Accurate and Lightweight Image Super-Resolution with Model-Guided Deep Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。 MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。 RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文参考訳（メタデータ） (2020-09-14T08:23:37Z)
Enhanced Residual Networks for Context-based Image Outpainting [0.0]
深いモデルは、保持された情報を通してコンテキストや外挿を理解するのに苦労する。現在のモデルでは、生成的敵ネットワークを使用して、局所的な画像特徴の整合性が欠如し、偽のように見える結果を生成する。本稿では,局所的・大域的判別器の使用と,ネットワークの符号化部における残差ブロックの追加という,この問題を改善するための2つの方法を提案する。
論文参考訳（メタデータ） (2020-05-14T05:14:26Z)
Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文参考訳（メタデータ） (2020-02-07T03:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。