論文の概要: Fast Vision Mamba: Pooling Spatial Dimensions for Accelerated Processing
- arxiv url: http://arxiv.org/abs/2502.00594v1
- Date: Sat, 01 Feb 2025 23:35:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:32.561431
- Title: Fast Vision Mamba: Pooling Spatial Dimensions for Accelerated Processing
- Title(参考訳): Fast Vision Mamba: 高速化処理のための空間次元のポーリング
- Authors: Saarthak Kapse, Robin Betz, Srinivasan Sivanandan,
- Abstract要約: 選択的スキャン(Mamba)を備えた状態空間モデル(SSM)は、効率的な視覚モデルに適応している。
Fast Vision Mamba (FastVim)は、モデル性能を維持しながら、Vision Mambaモデルの繰り返しステップ数を減少させる。
実験では,タスクのスループットが劇的に向上した最先端の性能を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: State Space Models (SSMs) with selective scan (Mamba) have been adapted into efficient vision models. Mamba, unlike Vision Transformers, achieves linear complexity for token interactions through a recurrent hidden state process. This sequential processing is enhanced by a parallel scan algorithm, which reduces the computational time of recurrent steps from $L$ sequential steps to $log(L)$ parallel steps with respect to the number of input tokens ($L$). In this work, we propose Fast Vision Mamba (FastVim), that further reduces the computational time of the SSM block by reducing the number of recurrent steps in Vision Mamba models while still retaining model performance. By alternately pooling tokens along image dimensions across Mamba blocks, we obtain a 2$\times$ reduction in the number of parallel steps in SSM block. Our model offers up to $72.5\%$ speedup in inference speed compared to baseline Vision Mamba models on high resolution (2048$\times$2048) images. Our experiments demonstrate state-of-the-art performance with dramatically improved throughput in a range of tasks such as image classification, cell perturbation prediction, segmentation, and object detection. Code is made available at https://github.com/insitro/FastVim
- Abstract(参考訳): 選択的スキャン(Mamba)を備えた状態空間モデル(SSM)は、効率的な視覚モデルに適応している。
ビジョントランスフォーマーとは異なり、Mambaは繰り返し発生する隠れ状態プロセスを通じてトークンインタラクションの線形複雑化を実現する。
このシーケンシャル処理は並列スキャンアルゴリズムによって強化され、入力トークン数(L$)に関して、繰り返しステップの計算時間を$L$シーケンシャルステップから$log(L)$パラレルステップに短縮する。
本研究では、モデル性能を維持しつつ、ビジョン・マンバモデルにおける繰り返しステップ数を減らし、SSMブロックの計算時間を短縮するFast Vision Mamba(FastVim)を提案する。
マムバブロックにまたがる画像次元に沿ってトークンを交互にプールすることで、SSMブロックの並列ステップ数を2$\times$に削減できる。
我々のモデルは、高解像度(2048$\times$2048)画像のベースラインであるVision Mambaモデルと比較して、推論速度を最大72.5\%高速化する。
本研究では, 画像分類, セル摂動予測, セグメンテーション, オブジェクト検出などのタスクにおいて, スループットを劇的に向上した最先端性能を示す。
コードはhttps://github.com/insitro/FastVimで公開されている。
関連論文リスト
- MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - 2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification [40.10133518650528]
マンバは線形複雑性と高い並列性を持つ選択的状態空間モデル(SSM)を導入した。
画像の2次元空間構造を組み込んだ新しい2次元選択型SSMフレームワークである2DMambaを提案する。
WSI分類と生存分析のための10の公開データセットの実験では、2DMambaimがAUCで2.48%$、F1で3.11%$、精度で2.47%$、C-indexで5.52%$まで改善している。
論文 参考訳(メタデータ) (2024-12-01T05:42:58Z) - Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion [46.82975707531064]
SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。
本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。
画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
論文 参考訳(メタデータ) (2024-10-19T12:56:58Z) - V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - Scalable Autoregressive Image Generation with Mamba [23.027439743155192]
本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。
Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。
パラメータ数は128Mから1.3Bまで様々である。
論文 参考訳(メタデータ) (2024-08-22T09:27:49Z) - PackMamba: Efficient Processing of Variable-Length Sequences in Mamba training [13.926804198202582]
Mambaは、生成AIの分野で画期的なアーキテクチャとして登場し、長いシーケンスを扱うのに顕著な習熟度を示している。
Mambaの既存のトレーニングフレームワークは、可変長シーケンス入力による非効率性を示す。
可変長シーケンスを効率的に処理する高スループットなMambaであるPackMambaを提案する。
論文 参考訳(メタデータ) (2024-08-07T16:13:43Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。