論文の概要: Matterhorn: Efficient Analog Sparse Spiking Transformer Architecture with Masked Time-To-First-Spike Encoding
- arxiv url: http://arxiv.org/abs/2601.22876v1
- Date: Fri, 30 Jan 2026 11:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.417428
- Title: Matterhorn: Efficient Analog Sparse Spiking Transformer Architecture with Masked Time-To-First-Spike Encoding
- Title(参考訳): Matterhorn: タイム・ツー・ファースト・スパイクエンコーディングによる効率的なアナログスパーススパイクトランスフォーマーアーキテクチャ
- Authors: Zhanglu Yan, Kaiwen Tang, Zixuan Zhu, Zhenyu Bai, Qianhui Liu, Weng-Fai Wong,
- Abstract要約: スパイキングニューラルネットワーク(SNN)はエネルギー効率の良いLLM推論の候補として期待されている。
本稿では,マスク付きタイム・ツー・ファースト・スパイク符号化方式を統合したスパイク変換器であるMatterhornを提案する。
Matterhornは新たな最先端技術を確立し、既存のSNNを1.42%の精度で上回り、エネルギー効率は2.31倍向上した。
- 参考スコア(独自算出の注目度): 12.040413194036383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking neural networks (SNNs) have emerged as a promising candidate for energy-efficient LLM inference. However, current energy evaluations for SNNs primarily focus on counting accumulate operations, and fail to account for real-world hardware costs such as data movement, which can consume nearly 80% of the total energy. In this paper, we propose Matterhorn, a spiking transformer that integrates a novel masked time-to-first-spike (M-TTFS) encoding method to reduce spike movement and a memristive synapse unit (MSU) to eliminate weight access overhead. M-TTFS employs a masking strategy that reassigns the zero-energy silent state (a spike train of all 0s) to the most frequent membrane potential rather than the lowest. This aligns the coding scheme with the data distribution, minimizing spike movement energy without information loss. We further propose a `dead zone' strategy that maximizes sparsity by mapping all values within a given range to the silent state. At the hardware level, the MSU utilizes compute-in-memory (CIM) technology to perform analog integration directly within memory, effectively removing weight access costs. On the GLUE benchmark, Matterhorn establishes a new state-of-the-art, surpassing existing SNNs by 1.42% in average accuracy while delivering a 2.31 times improvement in energy efficiency.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)はエネルギー効率の良いLLM推論の候補として期待されている。
しかしながら、SNNの現在のエネルギー評価は、主に蓄積した演算を数えることに重点を置いており、総エネルギーの80%近くを消費できるデータ移動のような実際のハードウェアコストを考慮できない。
本稿では、スパイク運動を低減するための新しいマスク付きタイム・ツー・ファースト・スパイク(M-TTFS)エンコーディング法と、ウェイトアクセスオーバーヘッドをなくすためのMSU(Memristive Synapse Unit)を組み合わせたスパイキングトランスフォーマーであるMatterhornを提案する。
M-TTFSは、ゼロエネルギーのサイレント状態(全0のスパイクトレイン)を最低値ではなく最も頻繁な膜電位に置き換えるマスキング戦略を採用している。
これにより、符号化スキームはデータ分布と整合し、情報損失を伴わずにスパイク運動エネルギーを最小化する。
さらに,与えられた範囲内のすべての値をサイレント状態にマッピングすることで,空間性を最大化する「デッドゾーン」戦略を提案する。
ハードウェアレベルでは、MSUはコンピュート・イン・メモリ(CIM)技術を使用して、メモリ内で直接アナログ統合を行い、効果的に重量アクセスコストを削減している。
GLUEベンチマークでは、Matterhornは新たな最先端技術を確立し、既存のSNNを1.42%の精度で上回り、エネルギー効率を2.31倍改善した。
関連論文リスト
- SpikySpace: A Spiking State Space Model for Energy-Efficient Time Series Forecasting [9.976522013586244]
SpikySpaceは、注意ブロックの二次コストを選択的スキャンによって線形時間に削減する、スパイク状態空間モデルである。
指数関数や除算などの複雑な演算は、ニューロモルフィックチップ上でコストがかかるため、SiLUとSoftplusの簡易近似を導入する。
一致する環境では、SpkySpaceは2つの最先端トランスフォーマーベースのアプローチと比較して、推定エネルギー消費を98.73%、96.24%削減する。
論文 参考訳(メタデータ) (2026-01-02T13:10:53Z) - Otters: An Energy-Efficient SpikingTransformer via Optical Time-to-First-Spike Encoding [22.30455217693273]
スパイクニューラルネットワーク(SNN)は高エネルギー効率、特にTTFSエンコーディングを約束する。
本稿は,光電子デバイスにおける「物理ハードウェアバグ」,すなわち自然信号減衰を再利用することで,このコストのかかるアプローチに挑戦する。
我々は酸化インジウム光電子シナプスを作製し、その天然の物理的崩壊が要求される時間関数を直接実装する様子を示した。
論文 参考訳(メタデータ) (2025-09-23T13:23:48Z) - Spiking Vocos: An Energy-Efficient Neural Vocoder [20.806942393453145]
スパイキング・ヴォコス(Spike Vocos)は、超低エネルギー消費のニューラルボコーダである。
SNNにおける情報ボトルネックを軽減するため、Spike ConvNeXtモジュールを設計する。
テンポラルシフトモジュールも統合され、時間次元にわたって情報を融合するモデルの能力が強化される。
論文 参考訳(メタデータ) (2025-09-16T13:09:13Z) - Spark Transformer: Reactivating Sparsity in FFN and Attention [53.221448818147024]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文 参考訳(メタデータ) (2025-06-07T03:51:13Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - Full-Stack Optimization for CAM-Only DNN Inference [2.0837295518447934]
本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。
演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。
本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
論文 参考訳(メタデータ) (2024-01-23T10:27:38Z) - Federated Learning for Energy-limited Wireless Networks: A Partial Model
Aggregation Approach [79.59560136273917]
デバイス間の限られた通信資源、帯域幅とエネルギー、およびデータ不均一性は、連邦学習(FL)の主要なボトルネックである
まず、部分モデルアグリゲーション(PMA)を用いた新しいFLフレームワークを考案する。
提案されたPMA-FLは、2つの典型的な異種データセットにおいて2.72%と11.6%の精度を改善する。
論文 参考訳(メタデータ) (2022-04-20T19:09:52Z) - Energy-Efficient Model Compression and Splitting for Collaborative
Inference Over Time-Varying Channels [52.60092598312894]
本稿では,エッジノードとリモートノード間のモデル圧縮と時間変化モデル分割を利用して,エッジデバイスにおける総エネルギーコストを削減する手法を提案する。
提案手法は, 検討されたベースラインと比較して, エネルギー消費が最小限であり, 排出コストが$CO$となる。
論文 参考訳(メタデータ) (2021-06-02T07:36:27Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - A Spike in Performance: Training Hybrid-Spiking Neural Networks with
Quantized Activation Functions [6.574517227976925]
Spiking Neural Network(SNN)は、エネルギー効率の高いコンピューティングに対する有望なアプローチである。
我々は、非スパイキングネットワークをSNNに変換する際に、最先端の精度を維持する方法を示す。
論文 参考訳(メタデータ) (2020-02-10T05:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。