論文の概要: Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain
- arxiv url: http://arxiv.org/abs/2405.18679v1
- Date: Wed, 29 May 2024 01:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:13:51.640453
- Title: Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain
- Title(参考訳): Vim-F: 周波数領域での学習から得られる視覚状態空間モデル
- Authors: Juntao Zhang, Kun Bian, Peng Cheng, Wenbo An, Jianning Liu, Jun Zhou,
- Abstract要約: Mambaディープラーニングモデルとして知られる、効率的なハードウェア対応設計のステートスペースモデル(SSM)は、長いシーケンスのモデリングにおいて大きな進歩を遂げた。
周波数領域と空間領域の両方で純粋なマンバエンコーダとスキャンを利用するVim-Fと呼ばれる新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 9.458951424465605
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, State Space Models (SSMs) with efficient hardware-aware designs, known as the Mamba deep learning models, have made significant progress in modeling long sequences such as language understanding. Therefore, building efficient and general-purpose visual backbones based on SSMs is a promising direction. Compared to traditional convolutional neural networks (CNNs) and Vision Transformers (ViTs), the performance of Vision Mamba (ViM) methods is not yet fully competitive. To enable SSMs to process image data, ViMs typically flatten 2D images into 1D sequences, inevitably ignoring some 2D local dependencies, thereby weakening the model's ability to interpret spatial relationships from a global perspective. We use Fast Fourier Transform (FFT) to obtain the spectrum of the feature map and add it to the original feature map, enabling ViM to model a unified visual representation in both frequency and spatial domains. The introduction of frequency domain information enables ViM to have a global receptive field during scanning. We propose a novel model called Vim-F, which employs pure Mamba encoders and scans in both the frequency and spatial domains. Moreover, we question the necessity of position embedding in ViM and remove it accordingly in Vim-F, which helps to fully utilize the efficient long-sequence modeling capability of ViM. Finally, we redesign a patch embedding for Vim-F, leveraging a convolutional stem to capture more local correlations, further improving the performance of Vim-F. Code is available at: \url{https://github.com/yws-wxs/Vim-F}.
- Abstract(参考訳): 近年、Mambaディープラーニングモデルとして知られる効率的なハードウェア対応設計を持つステートスペースモデル(SSM)は、言語理解のような長いシーケンスのモデリングにおいて大きな進歩を遂げている。
したがって、SSMに基づく効率的で汎用的な視覚バックボーンの構築は有望な方向である。
従来の畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)と比較して、ビジョン・マンバ(ViM)メソッドのパフォーマンスは、まだ完全に競合していない。
SSMが画像データを処理するために、ViMは一般的に2D画像を1Dシーケンスに平らにし、必然的にいくつかの2Dローカル依存関係を無視し、グローバルな視点から空間的関係を解釈するモデルの能力を弱める。
我々は、Fast Fourier Transform (FFT) を用いて特徴マップのスペクトルを取得し、元の特徴マップに追加し、VIMが周波数領域と空間領域の両方で統一された視覚表現をモデル化できるようにする。
周波数領域情報の導入により、ViMはスキャン中にグローバルな受容野を持つことができる。
周波数領域と空間領域の両方で純粋なマンバエンコーダとスキャンを利用するVim-Fと呼ばれる新しいモデルを提案する。
さらに,Vim-F への位置埋め込みの必要性を疑問視し,Vim-F における位置埋め込みの必要性を考察した。
最後に、Vim-Fのパッチ埋め込みを再設計し、より局所的な相関を捉えるために畳み込みステムを活用し、Vim-Fの性能をさらに向上させる。
コードは以下の通り: \url{https://github.com/yws-wxs/Vim-F}。
関連論文リスト
- Vim4Path: Self-Supervised Vision Mamba for Histopathology Images [9.271739983963458]
本稿では、状態空間モデルにインスパイアされたVision Mamba(Vim)アーキテクチャを、DINOフレームワークの計算病理学における表現学習に活用することを提案する。
我々は、パッチレベルとスライドレベルの両方の分類において、Camelyon16データセット上でのVim対ビジョントランスフォーマー(ViT)の性能を評価する。
論文 参考訳(メタデータ) (2024-04-20T00:44:40Z) - LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文 参考訳(メタデータ) (2024-03-14T12:32:40Z) - VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - MEW-UNet: Multi-axis representation learning in frequency domain for
medical image segmentation [13.456935850832565]
医療画像セグメンテーション(MIS)のためのU字型アーキテクチャに基づく多軸外部重み付きUNet(MEW-UNet)を提案する。
具体的には、入力特徴の3つの軸にフーリエ変換を行い、周波数領域の外部重みを割り当てる。
4つのデータセットでモデルを評価し、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-25T13:22:41Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。