論文の概要: HAMSA: Scanning-Free Vision State Space Models via SpectralPulseNet
- arxiv url: http://arxiv.org/abs/2604.14724v1
- Date: Thu, 16 Apr 2026 07:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.784032
- Title: HAMSA: Scanning-Free Vision State Space Models via SpectralPulseNet
- Title(参考訳): HAMSA: SpectralPulseNetによる無スキャンビジョン状態モデル
- Authors: Badri N. Patro, Vijay S. Agneeswaran,
- Abstract要約: Vim、VMamba、SiMBAのようなビジョンステートスペースモデル(SSM)は、2D画像を処理するためにシーケンシャルなSSMを適用する複雑な走査戦略に依存している。
スペクトル領域で直接動作する走査レスSSMであるHAMSAを提案する。
FFTベースの畳み込みを利用して、HAMSAは、O(L log L)複雑性を達成しつつ、より単純で効率の良いシーケンシャルスキャンを除去する。
- 参考スコア(独自算出の注目度): 3.183924309596046
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision State Space Models (SSMs) like Vim, VMamba, and SiMBA rely on complex scanning strategies to adapt sequential SSMs to process 2D images, introducing computational overhead and architectural complexity. We propose HAMSA, a scanning-free SSM operating directly in the spectral domain. HAMSA introduces three key innovations: (1) simplified kernel parameterization-a single Gaussian-initialized complex kernel replacing traditional (A, B, C) matrices, eliminating discretization instabilities; (2) SpectralPulseNet (SPN)-an input-dependent frequency gating mechanism enabling adaptive spectral modulation; and (3) Spectral Adaptive Gating Unit (SAGU)-magnitude-based gating for stable gradient flow in the frequency domain. By leveraging FFT-based convolution, HAMSA eliminates sequential scanning while achieving O(L log L) complexity with superior simplicity and efficiency. On ImageNet-1K, HAMSA reaches 85.7% top-1 accuracy (state-of-the-art among SSMs), with 2.2 X faster inference than transformers (4.2ms vs 9.2ms for DeiT-S) and 1.4-1.9X speedup over scanning-based SSMs, while using less memory (2.1GB vs 3.2-4.5GB) and energy (12.5J vs 18-25J). HAMSA demonstrates strong generalization across transfer learning and dense prediction tasks.
- Abstract(参考訳): Vim、VMamba、SiMBAのようなビジョンステートスペースモデル(SSM)は、2D画像の処理にシーケンシャルなSSMを適用するための複雑なスキャン戦略に依存しており、計算オーバーヘッドとアーキテクチャの複雑さを導入している。
スペクトル領域で直接動作する走査レスSSMであるHAMSAを提案する。
HAMSAは,(1) 従来の(A, B, C) 行列を置き換えた単一ガウス型複素カーネルの簡易化,(2) スペクトルパルスネット(SPN)-適応スペクトル変調が可能な入力依存周波数ゲーティング機構,(3) スペクトル適応ゲーティングユニット(SAGU)-マグニチュードベースゲーティング。
FFTベースの畳み込みを利用して、HAMSAは、O(L log L)複雑性を達成しつつ、より単純で効率の良いシーケンシャルスキャンを除去する。
ImageNet-1Kでは、HAMSAは85.7%の精度(SSMでは最先端)に達し、トランスフォーマーよりも2.2倍高速(DeiT-Sでは4.2ms、DeiT-Sでは9.2ms)、スキャンベースSSMより1.4-1.9Xのスピードアップを実現し、メモリの少ない(2.1GB対3.2-4.5GB)とエネルギーの少ない(12.5J対18-25J)。
HAMSAは、伝達学習と密接な予測タスクにまたがる強力な一般化を示す。
関連論文リスト
- MVNet: Hyperspectral Remote Sensing Image Classification Based on Hybrid Mamba-Transformer Vision Backbone Architecture [12.168520751389622]
ハイパースペクトル画像(HSI)分類は、高次元データ、限られたトレーニングサンプル、スペクトル冗長性といった課題に直面している。
本稿では,3D-CNNの局所特徴抽出,Transformerのグローバルモデリング,Mambaの線形シーケンスモデリング機能を統合した新しいMVNetネットワークアーキテクチャを提案する。
IN、UP、KSCデータセットでは、MVNetは分類精度と計算効率の両方で主流のハイパースペクトル画像分類法より優れている。
論文 参考訳(メタデータ) (2025-07-06T14:52:26Z) - Multi-Scale Spectral Attention Module-based Hyperspectral Segmentation in Autonomous Driving Scenarios [3.437245452211197]
本稿では,スペクトル特徴抽出を強化したマルチスケール分光アテンションモジュール(MSAM)を提案する。
MSAMをUNetのスキップ接続(UNet-SC)に統合することにより,提案したUNet-MSAMはセマンティックセグメンテーション性能を大幅に改善する。
論文 参考訳(メタデータ) (2025-06-23T14:24:20Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - GroupMamba: Efficient Group-Based Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、最近、四次計算の複雑さで長距離依存を捉えることを約束している。
しかし、純粋にSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最先端の性能を達成するために重要な課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image
Reconstruction [127.20208645280438]
ハイパースペクトル画像(HSI)再構成は、2次元計測から3次元空間スペクトル信号を復元することを目的としている。
スペクトル間相互作用のモデル化は、HSI再構成に有用である。
Mask-guided Spectral-wise Transformer (MST) は,HSI再構成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-15T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。