論文の概要: SF-Mamba: Rethinking State Space Model for Vision
- arxiv url: http://arxiv.org/abs/2603.16423v1
- Date: Tue, 17 Mar 2026 11:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.258161
- Title: SF-Mamba: Rethinking State Space Model for Vision
- Title(参考訳): SF-Mamba: ビジョンのための状態空間モデルの再考
- Authors: Masakazu Yoshimura, Teruaki Hayashi, Yuki Hoshino, Wei-Yao Wang, Takeshi Ohashi,
- Abstract要約: 近年、視覚用マンバは2次複雑さに悩まされている視覚変換器(ViT)の代替品に挑戦するために進歩している。
本稿では,一方向スキャン下での双方向情報の流れを符号化するための補助パッチスワップと,高度なGPU並列処理のための周期的状態リセットによるバッチフォールディングという,2つの重要な提案を持つ新しい視覚的マンバであるSF-マンバを提案する。
提案するSF-Mambaは,異なるモデルサイズでのスループットを向上しながら,最先端のベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 10.556415372817023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The realm of Mamba for vision has been advanced in recent years to strike for the alternatives of Vision Transformers (ViTs) that suffer from the quadratic complexity. While the recurrent scanning mechanism of Mamba offers computational efficiency, it inherently limits non-causal interactions between image patches. Prior works have attempted to address this limitation through various multi-scan strategies; however, these approaches suffer from inefficiencies due to suboptimal scan designs and frequent data rearrangement. Moreover, Mamba exhibits relatively slow computational speed under short token lengths, commonly used in visual tasks. In pursuit of a truly efficient vision encoder, we rethink the scan operation for vision and the computational efficiency of Mamba. To this end, we propose SF-Mamba, a novel visual Mamba with two key proposals: auxiliary patch swapping for encoding bidirectional information flow under an unidirectional scan and batch folding with periodic state reset for advanced GPU parallelism. Extensive experiments on image classification, object detection, and instance and semantic segmentation consistently demonstrate that our proposed SF-Mamba significantly outperforms state-of-the-art baselines while improving throughput across different model sizes. We will release the source code after publication.
- Abstract(参考訳): 視覚のためのMambaの領域は近年進歩し、視覚変換器(ViT)の代替として2次複雑さに悩まされている。
Mambaの繰り返し走査機構は計算効率を提供するが、本質的にはイメージパッチ間の非因果的相互作用を制限する。
先行研究は、様々なマルチスキャン戦略を通じてこの制限に対処しようと試みてきたが、これらのアプローチは、最適以下のスキャン設計と頻繁なデータ再構成のために、非効率に悩まされている。
さらに、Mambaは短いトークン長で比較的遅い計算速度を示し、視覚的なタスクでよく使われる。
本研究は,真に効率的なビジョンエンコーダの探索において,マンバの視覚に対するスキャン操作と計算効率を再考する。
そこで本研究では,一方向スキャン下での双方向情報の流れを符号化するための補助パッチスワップと,高度なGPU並列処理のための周期的状態リセットによるバッチフォールディングという,新しい視覚的マンバであるSF-Mambaを提案する。
画像分類,オブジェクト検出,インスタンスおよびセマンティックセグメンテーションに関する大規模な実験により,提案したSF-Mambaは,異なるモデルサイズでのスループットを向上しつつ,最先端のベースラインを著しく上回ることを示した。
ソースコードは公開後公開します。
関連論文リスト
- VAMamba: An Efficient Visual Adaptive Mamba for Image Restoration [20.467340636278657]
VAMambaは2つの重要なイノベーションを持つVisual Adaptive Mambaフレームワークである。
QCLAMencesfeaturelearningthrougha FIFOキャッシュ。
GPS-SS2D(GreedyPathScanSS2D)は適応走査を誘導する。
VAMambaは、修復の質と効率の両方において、既存のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-28T03:12:43Z) - DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。
変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。
多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-04-08T08:22:54Z) - Dynamic Vision Mamba [41.84910346271891]
マンバベースの視覚モデルは、注意に基づくモデルよりも計算的に効率的であることから、広く注目を集めている。
トークンの冗長性については、初期トークンプルーニング手法がトレーニングと推論の不整合をもたらすことを解析的に見出した。
ブロック冗長性については,マンバ型視覚モデルの推論速度がSSMブロック数に大きく影響しているという経験的観察に基づいて,各画像が動的にSSMブロックを選択することができる。
論文 参考訳(メタデータ) (2025-04-07T07:31:28Z) - Fast Vision Mamba: Pooling Spatial Dimensions for Accelerated Processing [0.0]
選択的スキャン(Mamba)を備えた状態空間モデル(SSM)は、効率的な視覚モデルに適応している。
Fast Vision Mamba (FastVim)は、モデル性能を維持しながら、Vision Mambaモデルの繰り返しステップ数を減少させる。
実験では,タスクのスループットが劇的に向上した最先端の性能を実証した。
論文 参考訳(メタデータ) (2025-02-01T23:35:20Z) - MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - KMM: Key Frame Mask Mamba for Extended Motion Generation [30.90366992148033]
キーフレーム・マスキング・モデリング(Key frame Masking Modeling)は、キーフレーム・マスキング・モデリング(Key frame Masking Modeling)を特徴とする新しいアーキテクチャである。
我々は,従来の最先端手法と比較して,FIDが57%以上,パラメータが70%以上減少し,最先端性能を達成するため,go-toデータセットであるBABELの広範な実験を行った。
論文 参考訳(メタデータ) (2024-11-10T14:41:38Z) - V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。