論文の概要: STEP: A Unified Spiking Transformer Evaluation Platform for Fair and Reproducible Benchmarking
- arxiv url: http://arxiv.org/abs/2505.11151v1
- Date: Fri, 16 May 2025 11:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.865208
- Title: STEP: A Unified Spiking Transformer Evaluation Platform for Fair and Reproducible Benchmarking
- Title(参考訳): STEP: 公正かつ再現可能なベンチマークのための統一スパイキングトランスフォーマー評価プラットフォーム
- Authors: Sicheng Shen, Dongcheng Zhao, Linghao Feng, Zeyang Yue, Jindong Li, Tenglong Li, Guobin Shen, Yi Zeng,
- Abstract要約: スパイキングトランスフォーマーは、スパイキングニューラルネットワークの効率と自己注意の表現力を組み合わせるための有望なアーキテクチャとして登場した。
分類,セグメンテーション,検出など,幅広いタスクをサポートするスパイキングトランスフォーマー用の統一ベンチマークフレームワークを提案する。
本研究では, スパイク空間, ビット幅, メモリアクセスを考慮したエネルギー推定モデルを提案する。
- 参考スコア(独自算出の注目度): 5.660272448194108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spiking Transformers have recently emerged as promising architectures for combining the efficiency of spiking neural networks with the representational power of self-attention. However, the lack of standardized implementations, evaluation pipelines, and consistent design choices has hindered fair comparison and principled analysis. In this paper, we introduce \textbf{STEP}, a unified benchmark framework for Spiking Transformers that supports a wide range of tasks, including classification, segmentation, and detection across static, event-based, and sequential datasets. STEP provides modular support for diverse components such as spiking neurons, input encodings, surrogate gradients, and multiple backends (e.g., SpikingJelly, BrainCog). Using STEP, we reproduce and evaluate several representative models, and conduct systematic ablation studies on attention design, neuron types, encoding schemes, and temporal modeling capabilities. We also propose a unified analytical model for energy estimation, accounting for spike sparsity, bitwidth, and memory access, and show that quantized ANNs may offer comparable or better energy efficiency. Our results suggest that current Spiking Transformers rely heavily on convolutional frontends and lack strong temporal modeling, underscoring the need for spike-native architectural innovations. The full code is available at: https://github.com/Fancyssc/STEP
- Abstract(参考訳): スパイキングトランスフォーマーは、最近、スパイキングニューラルネットワークの効率と自己注意の表現力を組み合わせるための有望なアーキテクチャとして登場した。
しかし、標準化された実装、評価パイプライン、一貫した設計選択の欠如は、公正な比較と原則化された分析を妨げている。
本稿では,静的,イベントベース,シーケンシャルなデータセットにまたがる分類,セグメンテーション,検出など,幅広いタスクをサポートするスパイキングトランスフォーマーのための統合ベンチマークフレームワークである \textbf{STEP} を紹介する。
STEPはスパイキングニューロン、入力エンコーディング、サロゲート勾配、複数のバックエンド(例えば、SpikeJelly、BrainCog)などの多様なコンポーネントに対するモジュラーサポートを提供する。
STEPを用いて複数の代表的なモデルを再現・評価し、アテンションデザイン、ニューロンタイプ、エンコーディングスキーム、時間的モデリング機能に関する体系的アブレーション研究を行う。
また,エネルギー推定,スパイク空間,ビット幅,メモリアクセスを考慮した統一解析モデルを提案する。
以上の結果から,現在のスパイキングトランスフォーマーは畳み込みフロントエンドに大きく依存しており,時間的モデリングが不十分であり,スパイクネイティブなアーキテクチャ革新の必要性を浮き彫りにしている。
完全なコードは、https://github.com/Fancyssc/STEPで入手できる。
関連論文リスト
- Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning [30.781578037476347]
高度にフレキシブルな非自律型ニューラル常微分方程式(ODE)を用いたトランスフォーマーアーキテクチャのモデリング手法を提案する。
提案モデルでは,ニューラルネットワークによる注目度とフィードフォワードブロックの重みをパラメータ化し,これらの重みを連続層インデックスの関数として表現する。
我々のニューラルODE変換器は、さまざまな構成やデータセットにわたるバニラ変換器に匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-03T09:12:14Z) - Toward Relative Positional Encoding in Spiking Transformers [52.62008099390541]
スパイキングニューラルネットワーク(スパイキングニューラルネット、英: Spiking Neural Network、SNN)は、脳内のニューロンが離散スパイクを通してどのように通信するかをモデル化するバイオインスパイアネットワークである。
本稿では,スパイキング変換器における相対位置符号化(RPE)の近似手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T06:42:37Z) - CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
本稿では,Cross Feature Pyramid Transformer Decoder (CFPFormer)を提案する。
私たちの仕事は、長距離の依存関係をキャプチャし、効果的にアップサンプルのフィーチャーマップを作成できます。
ResNet50のバックボーンにより,92.02%のDice Scoreを実現し,本手法の有効性を強調した。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Todyformer: Towards Holistic Dynamic Graph Transformers with
Structure-Aware Tokenization [6.799413002613627]
Todyformerは、動的グラフに適したトランスフォーマーベースのニューラルネットワークである。
メッセージパッシングニューラルネットワーク(MPNN)のローカルエンコーディング能力とトランスフォーマーのグローバルエンコーディング能力を統合する。
Todyformerは、ダウンストリームタスクの最先端メソッドよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-02-02T23:05:30Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。
本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。
PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文 参考訳(メタデータ) (2022-03-04T11:47:20Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。