論文の概要: Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models
- arxiv url: http://arxiv.org/abs/2403.17902v1
- Date: Tue, 26 Mar 2024 17:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:18:09.959146
- Title: Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models
- Title(参考訳): Serpent: マルチスケール構造化状態空間モデルによるスケーラブルで効率的な画像復元
- Authors: Mohammad Shahab Sepehri, Zalan Fabian, Mahdi Soltanolkotabi,
- Abstract要約: Serpentは、そのコア計算ブロックにおける状態空間モデル(SSM)の最近の進歩を活用するアーキテクチャである。
予備的な結果から,Serpentは最先端技術と同等の再現性が得られることが示された。
- 参考スコア(独自算出の注目度): 22.702352459581434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The landscape of computational building blocks of efficient image restoration architectures is dominated by a combination of convolutional processing and various attention mechanisms. However, convolutional filters are inherently local and therefore struggle at modeling long-range dependencies in images. On the other hand, attention excels at capturing global interactions between arbitrary image regions, however at a quadratic cost in image dimension. In this work, we propose Serpent, an architecture that leverages recent advances in state space models (SSMs) in its core computational block. SSMs, originally introduced for sequence modeling, can maintain a global receptive field with a favorable linear scaling in input size. Our preliminary results demonstrate that Serpent can achieve reconstruction quality on par with state-of-the-art techniques, while requiring orders of magnitude less compute (up to $150$ fold reduction in FLOPS) and a factor of up to $5\times$ less GPU memory while maintaining a compact model size.
- Abstract(参考訳): 効率的な画像復元アーキテクチャの計算構築ブロックのランドスケープは、畳み込み処理と様々な注意機構の組み合わせによって支配されている。
しかし、畳み込みフィルタは本質的に局所的であるため、画像内の長距離依存関係をモデル化するのに苦労する。
一方、注意力は任意の画像領域間のグローバルな相互作用を捉えるのに優れるが、画像次元の二次的なコストはかかる。
本研究では,Serpentのコア計算ブロックにおける状態空間モデル(SSM)の最近の進歩を活用するアーキテクチャを提案する。
もともとシーケンスモデリングのために導入されたSSMは、入力サイズが好適な線形スケーリングで、グローバルな受容場を維持することができる。
予備的な結果から、Serpentは最先端技術に匹敵する再現品質を達成でき、FLOPSの最大150ドル(約1万5000円)の計算量と最大5ドル(約5万5000円)のGPUメモリを必要としつつ、コンパクトなモデルサイズを維持することができる。
関連論文リスト
- Adaptive Patching for High-resolution Image Segmentation with Transformers [9.525013089622183]
注意に基づくモデルは、セグメンテーションを含む画像分析の領域で増加している。
トランスフォーマーエンコーダにイメージを供給する標準的な方法は、イメージをパッチに分割し、トークンの線形シーケンスとしてモデルにパッチを供給することである。
顕微鏡病理画像などの高解像度画像では、セグメンテーションで好まれる小さなパッチサイズを使用する場合、二次計算とメモリコストは注意に基づくモデルの使用を禁止している。
我々はHPCのAdapative Mesh Refinement(AMR)法から着想を得た。
論文 参考訳(メタデータ) (2024-04-15T12:06:00Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - MLIC++: Linear Complexity Multi-Reference Entropy Modeling for Learned
Image Compression [30.71965784982577]
我々はMEM++を導入し、潜在表現に固有の様々な相関関係をキャプチャする。
MEM++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。
MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。
論文 参考訳(メタデータ) (2023-07-28T09:11:37Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - FIANCEE: Faster Inference of Adversarial Networks via Conditional Early
Exits [0.7649605697963953]
本稿では,従来のアーキテクチャにいわゆる早期出口分岐を付加することにより,計算量を削減する手法を提案する。
生成タスクを行う2つの異なるSOTAモデルに本手法を適用した。
これは、品質損失を含む必要がある場合、顔の合成のようなリアルタイムアプリケーションに特に関係している。
論文 参考訳(メタデータ) (2023-04-20T13:40:49Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - Fast and High-Quality Image Denoising via Malleable Convolutions [72.18723834537494]
動的畳み込みの効率的な変種として、Malleable Convolution (MalleConv)を提案する。
以前の作品とは異なり、MalleConvは入力から空間的に変化するカーネルのより小さなセットを生成する。
また、MalleNetという造語であるMalleConvを用いて、効率的なdenoisingネットワークを構築した。
論文 参考訳(メタデータ) (2022-01-02T18:35:20Z) - Sequential Hierarchical Learning with Distribution Transformation for
Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。
特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。
実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文 参考訳(メタデータ) (2020-07-19T01:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。