論文の概要: Collapse or Preserve: Data-Dependent Temporal Aggregation for Spiking Neural Network Acceleration
- arxiv url: http://arxiv.org/abs/2603.13810v1
- Date: Sat, 14 Mar 2026 07:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.421665
- Title: Collapse or Preserve: Data-Dependent Temporal Aggregation for Spiking Neural Network Acceleration
- Title(参考訳): 崩壊または保存:スパイクニューラルネットワーク加速のためのデータ依存時間集約
- Authors: Jiahao Qin,
- Abstract要約: スパイク空間は、GPUハードウェア上で効率的なスパイクニューラルネットワーク(SNN)推論を可能にすると広く信じられている。
SIMDアーキテクチャは2進スパイクの微細で非構造的な空間を利用できない。
本稿では、畳み込み線形性を利用して1回の畳み込みコールの前に$K$スパイクフレームをプリアグリゲートする時間的集約畳み込み(TAC)を提案する。
- 参考スコア(独自算出の注目度): 1.1597621848542221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spike sparsity is widely believed to enable efficient spiking neural network (SNN) inference on GPU hardware. We demonstrate this is an illusion: five distinct sparse computation strategies on Apple M3 Max all fail to outperform dense convolution, because SIMD architectures cannot exploit the fine-grained, unstructured sparsity of i.i.d. binary spikes. Instead, we propose Temporal Aggregated Convolution (TAC), which exploits convolution linearity to pre-aggregate $K$ spike frames before a single convolution call, reducing $T$ calls to $T/K$. On rate-coded data, TAC achieves 13.8times speedup with +1.6% accuracy on MNIST and +5.4% on Fashion-MNIST -- a simultaneous improvement in both speed and accuracy. However, on event-based data where the temporal dimension carries genuine motion information, TAC's temporal collapse is harmful. We therefore introduce TAC-TP (Temporal Preservation), which shares each group's convolution output across K independent LIF steps, preserving full temporal resolution for downstream layers. On DVS128-Gesture, TAC-TP achieves 95.1% accuracy (vs. 96.3% baseline) with 50% fewer convolution calls, while standard TAC drops to 91.3%. Our key finding is that the optimal temporal aggregation strategy is data-dependent: collapse the temporal dimension for rate-coded data (noise reduction) but preserve it for event data (information retention). Speedup is hardware-agnostic: TAC achieves 11.0times on NVIDIA V100, confirming the mechanism transfers across GPU architectures. All operators in the mlx-snn library are open source.
- Abstract(参考訳): スパイク空間は、GPUハードウェア上で効率的なスパイクニューラルネットワーク(SNN)推論を可能にすると広く信じられている。
Apple M3 Max上の5つの異なるスパース計算戦略は、すべて密度の高い畳み込みを上回りません。
その代わりに、畳み込み線形性を利用して、1回の畳み込みコールの前に$K$スパイクフレームを事前集約し、$T$呼び出しを$T/K$に還元する時間的集約畳み込み(TAC)を提案する。
レートコードデータでは、TACはMNISTでは+1.6%、Fashion-MNISTでは+5.4%で13.8倍のスピードアップを達成した。
しかし、時間次元が真の運動情報を持つ事象に基づくデータでは、TACの時間的崩壊は有害である。
したがって,TAC-TP (Temporal Preservation) を導入し,各グループの畳み込み出力をK個の独立LIFステップで共有し,下流層に対する時間分解能の完全保存を行う。
DVS128-Gestureでは、TAC-TPは95.1%の精度(vs.96.3%ベースライン)でコンボリューションコールを50%減らし、標準のTACは91.3%に低下した。
我々の重要な発見は、最適な時間的アグリゲーション戦略がデータに依存していることだ: レートコードされたデータ(ノイズ低減)の時間次元を崩壊させるが、イベントデータ(情報保持)のために保存する。
スピードアップはハードウェアに依存しない:TACはNVIDIA V100で11.0タイムを達成し、GPUアーキテクチャ間のメカニズム転送を確認する。
mlx-snnライブラリのすべてのオペレータはオープンソースである。
関連論文リスト
- Pip-Stereo: Progressive Iterations Pruner for Iterative Optimization based Stereo Matching [2.226667542457085]
反復的改善を解析し,不均一な更新が空間的に疎外であり,時間的に冗長であることを明らかにする。
専用単分子エンコーダを必要とせず,奥行き先を暗黙的に埋め込む,協調的な単分子先行転送フレームワークを提案する。
第3に,構造化空間とI/O意識設計を利用したハードウェア対応RNN演算子であるFlashGRUを開発した。
論文 参考訳(メタデータ) (2026-02-24T02:51:37Z) - LUT-Compiled Kolmogorov-Arnold Networks for Lightweight DoS Detection on IoT Edge Devices [20.271194684947282]
Kolmogorov-Arnold Networks (KAN) は、MLP(Multi-Layer Perceptrons)に代わるコンパクトな代替品を提供する。
B-spline評価は、レイテンシクリティカルなIoTアプリケーションには適さない、大幅な計算オーバーヘッドをもたらす。
本稿では,高価なスプライン計算を事前計算した量子テーブルに置き換えるルックアップテーブル(LUT)コンパイルパイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-12T22:32:18Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Data-Free Dynamic Compression of CNNs for Tractable Efficiency [46.498278084317704]
構造化プルーニング手法は, 精度が大幅に低下することなく浮動小数点演算を低下させる可能性を示唆している。
HASTE(Hashing for Tractable Efficiency)は,データフリーでプラグイン・アンド・プレイのコンボリューションモジュールで,トレーニングや微調整なしにネットワークのテスト時間推論コストを瞬時に低減する。
CIFAR-10とImageNetでは46.72%のFLOPを1.25%の精度で削減した。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Res-GCNN: A Lightweight Residual Graph Convolutional Neural Networks for
Human Trajectory Forecasting [0.0]
ペデストリアンの対話的挙動をモデル化した残差グラフ畳み込みニューラルネットワーク(Res-GCNN)を提案する。
その結果、最終変位誤差(FDE)が0.65mに達すると、アートの状態を13.3%改善することが示された。
コードはGitHubで公開されている。
論文 参考訳(メタデータ) (2020-11-18T11:18:16Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。