Fugu-MT 論文翻訳(概要): Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models

論文の概要: Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models

arxiv url: http://arxiv.org/abs/2403.17902v1
Date: Tue, 26 Mar 2024 17:43:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 14:18:09.959146
Title: Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models
Title（参考訳）: Serpent: マルチスケール構造化状態空間モデルによるスケーラブルで効率的な画像復元
Authors: Mohammad Shahab Sepehri, Zalan Fabian, Mahdi Soltanolkotabi,
Abstract要約: Serpentは、そのコア計算ブロックにおける状態空間モデル(SSM)の最近の進歩を活用するアーキテクチャである。予備的な結果から,Serpentは最先端技術と同等の再現性が得られることが示された。
参考スコア（独自算出の注目度）: 22.702352459581434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The landscape of computational building blocks of efficient image restoration architectures is dominated by a combination of convolutional processing and various attention mechanisms. However, convolutional filters are inherently local and therefore struggle at modeling long-range dependencies in images. On the other hand, attention excels at capturing global interactions between arbitrary image regions, however at a quadratic cost in image dimension. In this work, we propose Serpent, an architecture that leverages recent advances in state space models (SSMs) in its core computational block. SSMs, originally introduced for sequence modeling, can maintain a global receptive field with a favorable linear scaling in input size. Our preliminary results demonstrate that Serpent can achieve reconstruction quality on par with state-of-the-art techniques, while requiring orders of magnitude less compute (up to $150$ fold reduction in FLOPS) and a factor of up to $5\times$ less GPU memory while maintaining a compact model size.
Abstract（参考訳）: 効率的な画像復元アーキテクチャの計算構築ブロックのランドスケープは、畳み込み処理と様々な注意機構の組み合わせによって支配されている。しかし、畳み込みフィルタは本質的に局所的であるため、画像内の長距離依存関係をモデル化するのに苦労する。一方、注意力は任意の画像領域間のグローバルな相互作用を捉えるのに優れるが、画像次元の二次的なコストはかかる。本研究では,Serpentのコア計算ブロックにおける状態空間モデル(SSM)の最近の進歩を活用するアーキテクチャを提案する。もともとシーケンスモデリングのために導入されたSSMは、入力サイズが好適な線形スケーリングで、グローバルな受容場を維持することができる。予備的な結果から、Serpentは最先端技術に匹敵する再現品質を達成でき、FLOPSの最大150ドル(約1万5000円)の計算量と最大5ドル(約5万5000円)のGPUメモリを必要としつつ、コンパクトなモデルサイズを維持することができる。

関連論文リスト

Multi-dimensional Visual Prompt Enhanced Image Restoration via Mamba-Transformer Aggregation [4.227991281224256]
本稿では,計算効率を犠牲にすることなく,MambaとTransformerの相補的な利点を十分に活用することを提案する。マンバの選択的走査機構は空間モデリングに焦点をあて、長距離空間依存のキャプチャを可能にする。トランスフォーマーの自己保持機構は、画像の空間次元と二次的な成長の重荷を回避し、チャネルモデリングに焦点をあてる。
論文参考訳（メタデータ） (2024-12-20T12:36:34Z)
Image Forgery Localization with State Space Models [6.6222439382291]
選択SSMを利用した画像フォージェリローカライズ手法であるLoMaを提案する。 LoMaは、空間領域を横切り、改ざんされた画像を順序付けられたパッチシーケンスに変換するために、アトラス選択的スキャンを使用する。これは、SSMベースのモデルに基づいて構築された最初の画像フォージェリーローカライゼーションモデルである。
論文参考訳（メタデータ） (2024-12-15T15:10:53Z)
Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。 PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-06T17:59:10Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文参考訳（メタデータ） (2024-03-30T08:05:00Z)
Multi-scale Unified Network for Image Classification [33.560003528712414]
CNNは、実世界のマルチスケール画像入力を扱う際に、性能と計算効率において顕著な課題に直面している。本稿では,マルチスケール,統一ネットワーク,スケール不変制約からなるMultiscale Unified Network(MUSN)を提案する。 MUSNは精度が44.53%向上し、マルチスケールシナリオではFLOPを7.01-16.13%減少させる。
論文参考訳（メタデータ） (2024-03-27T06:40:26Z)
Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。 DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文参考訳（メタデータ） (2023-10-11T12:46:11Z)
Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。 LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2022-09-26T22:22:30Z)
Fast and High-Quality Image Denoising via Malleable Convolutions [72.18723834537494]
動的畳み込みの効率的な変種として、Malleable Convolution (MalleConv)を提案する。以前の作品とは異なり、MalleConvは入力から空間的に変化するカーネルのより小さなセットを生成する。また、MalleNetという造語であるMalleConvを用いて、効率的なdenoisingネットワークを構築した。
論文参考訳（メタデータ） (2022-01-02T18:35:20Z)
Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-18T18:59:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。