論文の概要: Ge$^\text{2}$mS-T: Multi-Dimensional Grouping for Ultra-High Energy Efficiency in Spiking Transformer
- arxiv url: http://arxiv.org/abs/2604.08894v1
- Date: Fri, 10 Apr 2026 02:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.65509
- Title: Ge$^\text{2}$mS-T: Multi-Dimensional Grouping for Ultra-High Energy Efficiency in Spiking Transformer
- Title(参考訳): Ge$^\text{2}$mS-T:スパイキング変圧器の超高エネルギー効率のための多次元グルーピング
- Authors: Zecheng Hao, Shenghao Xie, Kang Chen, Wenxuan Liu, Zhaofei Yu, Tiejun Huang,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、ニューラルネットワーク(ANN)よりも優れたエネルギー効率を提供する
ANN-SNN ConversionやSpatial-Temporal Backpropagation (STBP)といった既存のパラダイムは、固有の制限に悩まされている。
Ge$text2$mS-Tを提案する。これは時間的・空間的・ネットワーク的構造次元にまたがるグループ計算を実装した新しいアーキテクチャである。
- 参考スコア(独自算出の注目度): 84.8831358775386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking Neural Networks (SNNs) offer superior energy efficiency over Artificial Neural Networks (ANNs). However, they encounter significant deficiencies in training and inference metrics when applied to Spiking Vision Transformers (S-ViTs). Existing paradigms including ANN-SNN Conversion and Spatial-Temporal Backpropagation (STBP) suffer from inherent limitations, precluding concurrent optimization of memory, accuracy and energy consumption. To address these issues, we propose Ge$^\text{2}$mS-T, a novel architecture implementing grouped computation across temporal, spatial and network structure dimensions. Specifically, we introduce the Grouped-Exponential-Coding-based IF (ExpG-IF) model, enabling lossless conversion with constant training overhead and precise regulation for spike patterns. Additionally, we develop Group-wise Spiking Self-Attention (GW-SSA) to reduce computational complexity via multi-scale token grouping and multiplication-free operations within a hybrid attention-convolution framework. Experiments confirm that our method can achieve superior performance with ultra-high energy efficiency on challenging benchmarks. To our best knowledge, this is the first work to systematically establish multi-dimensional grouped computation for resolving the triad of memory overhead, learning capability and energy budget in S-ViTs.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)は、ニューラルネットワーク(ANN)よりも優れたエネルギー効率を提供する。
しかし、S-ViT(Spike Vision Transformers)に適用された場合、トレーニングと推論の指標に重大な欠陥がある。
ANN-SNN ConversionやSpatial-Temporal Backpropagation (STBP)といった既存のパラダイムは、メモリ、精度、エネルギー消費の同時最適化を先立って、固有の制限に悩まされている。
これらの問題に対処するために,時間的,空間的,ネットワーク的構造次元にまたがるグループ計算を実装した新しいアーキテクチャであるGe$^\text{2}$mS-Tを提案する。
具体的には,ExpG-IF(Grouped-Exponential-Coding-based IF)モデルを導入する。
さらに,GW-SSA(Group-wise Spiking Self-Attention)を開発し,ハイブリット・アテンション・コンボリューション・フレームワーク内でのマルチスケールトークン・グループ化と乗算自由操作による計算複雑性を低減する。
実験により,本手法は,挑戦的ベンチマークにおいて,超高エネルギー効率で優れた性能が得られることを確認した。
我々の知る限り、これはS-ViTにおけるメモリオーバーヘッド、学習能力、エネルギー予算の3倍の問題を解決するための多次元グループ計算を体系的に確立する最初の試みである。
関連論文リスト
- Neural Dynamics Self-Attention for Spiking Transformers [59.57278823240336]
TransformerアーキテクチャによるSNN(Spike Neural Networks)は、エネルギー効率とパフォーマンスのバランスをとるための、有望な経路を提供する。
既存のスパイキングトランスフォーマーは、(i)ニューラルネットワーク(ANN)と(ii)推論時の高メモリオーバーヘッドと比較して、大幅なパフォーマンスギャップがあるという2つの重要な課題に直面している。
本稿では、局所受容野を持つスパイキングニューロンを用いて、メモリ要求を減らしながら注意を計算するLRF-Dynを提案する。
論文 参考訳(メタデータ) (2026-03-09T12:23:37Z) - ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。
我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文 参考訳(メタデータ) (2025-04-21T03:00:17Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Combining Aggregated Attention and Transformer Architecture for Accurate and Efficient Performance of Spiking Neural Networks [44.145870290310356]
近年、スパイキングニューラルネットワークは、その特徴的な低消費電力特性のために、大きな注目を集めている。
トランスフォーマーモデルは、強力な自己アテンション機構と並列処理能力で知られており、様々な領域で例外的な性能を示している。
SNNとTransformersの双方の大きな利点にもかかわらず、SNNの低消費電力の利点とTransformersの性能を直接組み合わせることは困難である。
論文 参考訳(メタデータ) (2024-12-18T07:07:38Z) - Unifying Dimensions: A Linear Adaptive Approach to Lightweight Image Super-Resolution [6.857919231112562]
ウィンドウベーストランスは超高解像度タスクにおいて優れた性能を示した。
畳み込みニューラルネットワークよりも計算複雑性と推論レイテンシが高い。
線形適応ミキサーネットワーク(LAMNet)という,畳み込みに基づくトランスフォーマーフレームワークを構築する。
論文 参考訳(メタデータ) (2024-09-26T07:24:09Z) - LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network through Spatial-Temporal Compressive Network Search and Joint Optimization [48.41286573672824]
スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高い。
本稿では,空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込むLitE-SNNという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-26T05:23:11Z) - AutoST: Training-free Neural Architecture Search for Spiking
Transformers [14.791412391584064]
スパイキングトランスフォーマーはスパイキングニューラルネットワーク(SNN)のエネルギー効率とトランスフォーマーの高容量を実現する。
既存のスパイキングトランスフォーマーアーキテクチャは、顕著なアーキテクチャのギャップを示し、結果として準最適性能をもたらす。
我々は,高速なスパイキングトランスフォーマーアーキテクチャを高速に識別するために,スパイキングトランスフォーマーのトレーニング不要なNAS手法であるAutoSTを紹介した。
論文 参考訳(メタデータ) (2023-07-01T10:19:52Z) - Learning k-Level Structured Sparse Neural Networks Using Group Envelope Regularization [4.0554893636822]
制約のあるリソースに大規模ディープニューラルネットワークをデプロイするための新しいアプローチを導入する。
この手法は推論時間を短縮し、メモリ需要と消費電力を減らすことを目的とする。
論文 参考訳(メタデータ) (2022-12-25T15:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。