論文の概要: Vision SmolMamba: Spike-Guided Token Pruning for Energy-Efficient Spiking State-Space Vision Models
- arxiv url: http://arxiv.org/abs/2604.25570v1
- Date: Tue, 28 Apr 2026 12:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.853752
- Title: Vision SmolMamba: Spike-Guided Token Pruning for Energy-Efficient Spiking State-Space Vision Models
- Title(参考訳): Vision SmolMamba:エネルギー効率のよい状態空間ビジョンモデルのためのスパイクガイド型トケンプルーニング
- Authors: Dewei Bai, Hongxiang Peng, Yunyun Zeng, Ziyu Zhang, Hong Qu, Yi Zhang,
- Abstract要約: スパイキングトランスフォーマーは、スパイク駆動の自己注意による長距離視覚モデリングの強い可能性を示している。
本研究では、スパイク駆動力学と線形時間選択再帰を融合したエネルギー効率の高い状態空間アーキテクチャであるVision SmolMambaを提案する。
- 参考スコア(独自算出の注目度): 12.802031106537685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking Transformers have shown strong potential for long-range visual modeling through spike-driven self-attention. However, their quadratic token interactions remain fundamentally misaligned with the sparse and event-driven nature of spiking neural computation. To address this limitation, we propose Vision SmolMamba, an energy-efficient spiking state-space architecture that integrates spike-driven dynamics with linear-time selective recurrence. The key idea is a Spike-Guided Spatio-Temporal Token Pruner (SST-TP), which estimates token importance using both spike activation strength and first-spike latency. This mechanism progressively removes redundant tokens while preserving salient spatio-temporal information, enabling efficient scaling with token sparsity. Based on this mechanism, the proposed SmolMamba block incorporates spike events directly into bidirectional state-space recurrence, forming a spiking state-space vision backbone for efficient long-range modeling. Extensive experiments on both static and event-based benchmarks, including ImageNet-1K, CIFAR10/100, CIFAR10-DVS, and DVS128 Gesture, demonstrate that Vision SmolMamba consistently achieves superior accuracy-efficiency trade-offs. In particular, it reduces the estimated energy cost by at least 1.5x compared with prior spiking Transformer baselines and a Spiking Mamba variant while maintaining competitive or improved accuracy. These results demonstrate that combining spike-guided token sparsity with state-space modeling offers a scalable and energy-efficient paradigm for spiking vision systems.
- Abstract(参考訳): スパイキングトランスフォーマーは、スパイク駆動の自己注意による長距離視覚モデリングの強い可能性を示している。
しかし、それらの二次トークン相互作用は、スパイクニューラルネットワークのスパースとイベント駆動の性質と根本的には一致していない。
この制限に対処するために、スパイク駆動力学と線形時間選択的再帰を融合したエネルギー効率の高いスパイク状態空間アーキテクチャであるVision SmolMambaを提案する。
鍵となるアイデアはSpike-Guided Spatio-Temporal Token Pruner(SST-TP)である。
このメカニズムは、適切な時空間情報を保存しながら、冗長なトークンを段階的に除去し、トークンの間隔を効率的にスケーリングすることができる。
この機構に基づいて、提案したSmolMambaブロックは、スパイクイベントを直接双方向状態空間再帰に組み込み、効率的な長距離モデリングのためのスパイク状態空間ビジョンバックボーンを形成する。
ImageNet-1K、CIFAR10/100、CIFAR10-DVS、DVS128 Gestureなど、静的およびイベントベースのベンチマークの広範な実験は、Vision SmolMambaが常に優れた精度と効率のトレードオフを実現することを示した。
特に、従来のスパイキングトランスフォーマーのベースラインとスパイキング・マンバの変種と比較して、競争力や精度の向上を維持しつつ、推定エネルギーコストを少なくとも1.5倍削減する。
これらの結果は、スパイク誘導トークンと状態空間モデリングを組み合わせることで、視覚系をスパイクするためのスケーラブルでエネルギー効率の良いパラダイムが提供されることを示している。
関連論文リスト
- BSViT: A Burst Spiking Vision Transformer for Expressive and Efficient Visual Representation Learning [10.608524604362879]
Spiking Vision Transformers (S-ViTs)は、エネルギー効率の高い視覚学習のための有望なフレームワークを提供する。
本研究は、デュアルチャネルバーストスパイク自己保持機構を備えたバーストスパイク駆動型ビジョントランスであるBSViTを提案する。
論文 参考訳(メタデータ) (2026-04-25T06:33:04Z) - Spike-driven Large Language Model [49.52947423982696]
スパイキングニューラルネットワーク(SNN)はスパイク駆動特性を持つ。
現在のLarge Language Models (LLM) は主に大規模密度行列乗法に基づいている。
本研究では,スパース加算操作により高密度行列乗算を除去するスパイク駆動型大規模言語モデルであるSDLLMを提案する。
論文 参考訳(メタデータ) (2026-04-11T17:58:35Z) - SpikySpace: A Spiking State Space Model for Energy-Efficient Time Series Forecasting [9.976522013586244]
SpikySpaceは、注意ブロックの二次コストを選択的スキャンによって線形時間に削減する、スパイク状態空間モデルである。
指数関数や除算などの複雑な演算は、ニューロモルフィックチップ上でコストがかかるため、SiLUとSoftplusの簡易近似を導入する。
一致する環境では、SpkySpaceは2つの最先端トランスフォーマーベースのアプローチと比較して、推定エネルギー消費を98.73%、96.24%削減する。
論文 参考訳(メタデータ) (2026-01-02T13:10:53Z) - SpikeGrasp: A Benchmark for 6-DoF Grasp Pose Detection from Stereo Spike Streams [57.84331423686738]
ほとんどのロボットの把握システムは、センサーデータを明示的な3Dポイントの雲に変換することに依存しており、これは生物学的知性には見つからない計算ステップである。
生体振動子経路を模倣するフレームワークであるSpikeGraspを導入し、立体スパイクカメラから生の非同期イベントを処理する。
我々のモデルは、これらのステレオスパイクストリームを融合させ、高レベルの視覚処理に類似した繰り返しスパイクニューラルネットワークを使用して、点雲を再構築することなく、把握仮説を反復的に洗練する。
論文 参考訳(メタデータ) (2025-10-12T13:36:40Z) - Spiking Meets Attention: Efficient Remote Sensing Image Super-Resolution with Attention Spiking Neural Networks [86.28783985254431]
従来の人工ニューラルネットワーク(ANN)の代替手段としてスパイキングニューラルネットワーク(SNN)が登場
本稿では,AID,DOTA,DIORなどのリモートセンシングベンチマークにおいて,最先端の性能を実現するSpikeSRを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:06:06Z) - Finding Visual Saliency in Continuous Spike Stream [23.591309376586835]
本稿では,連続スパイク流における視覚的塩分濃度を初めて検討する。
本稿では,フルスパイクニューラルネットワークに基づくRecurrent Spiking Transformerフレームワークを提案する。
我々のフレームワークは、スパイクストリームにおける視覚的サリエンシの強調とキャプチャにおいて、大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-10T15:15:35Z) - Low-power event-based face detection with asynchronous neuromorphic
hardware [2.0774873363739985]
本稿では、SynSense Speckニューロモルフィックチップ上に展開されたイベントベースの顔検出のためのオンチップスパイクニューラルネットワークの最初の例を示す。
トレーニングに用いるオフチップクロック駆動シミュレーションとオンチップイベント駆動推論との精度の相違について述べる。
オンチップ顔検出のmAP[0.5]は0.6で、20mWしか消費しない。
論文 参考訳(メタデータ) (2023-12-21T19:23:02Z) - Spikformer: When Spiking Neural Network Meets Transformer [102.91330530210037]
本稿では,スパイキングニューラルネットワーク(SNN)と自己認識機構という,生物学的にもっとも有効な2つの構造について考察する。
我々は、スパイキング・セルフ・アテンション(SSA)と、スパイキング・トランスフォーマー(Spikformer)という強力なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-29T14:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。