論文の概要: CSDformer: A Conversion Method for Fully Spike-Driven Transformer
- arxiv url: http://arxiv.org/abs/2509.17461v1
- Date: Mon, 22 Sep 2025 07:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.279287
- Title: CSDformer: A Conversion Method for Fully Spike-Driven Transformer
- Title(参考訳): CSDformer:完全スパイク駆動変圧器の変換法
- Authors: Yuhao Zhang, Chengjun Zhang, Di Wu, Jie Yang, Mohamad Sawan,
- Abstract要約: スパイクベースのトランスは、スパイクニューラルネットワークの性能向上を目的とした、新しいアーキテクチャである。
完全スパイク駆動変圧器の新しい変換法であるCSDformerを提案する。
CSDformerは超低レイテンシで高いパフォーマンスを実現し、計算複雑性とトレーニングオーバーヘッドの両方を劇的に削減する。
- 参考スコア(独自算出の注目度): 11.852241487470797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spike-based transformer is a novel architecture aiming to enhance the performance of spiking neural networks while mitigating the energy overhead inherent to transformers. However, methods for generating these models suffer from critical limitations: excessive training costs introduced by direct training methods, or unavoidably hardware-unfriendly operations in existing conversion methods. In this paper, we propose CSDformer, a novel conversion method for fully spike-driven transformers. We tailor a conversion-oriented transformer-based architecture and propose a new function NReLU to replace softmax in self-attention. Subsequently, this model is quantized and trained, and converted into a fully spike-driven model with temporal decomposition technique. Also, we propose delayed Integrate-andFire neurons to reduce conversion errors and improve the performance of spiking models. We evaluate CSDformer on ImageNet, CIFAR-10 and CIFAR-100 datasets and achieve 76.36% top-1 accuracy under 7 time-steps on ImageNet, demonstrating superiority over state-of-the-art models. Furthermore, CSDformer eliminates the need for training SNNs, thereby reducing training costs (reducing computational resource by 75% and accelerating training speed by 2-3$\times$). To the best of our knowledge, this is the first fully spike-driven transformer-based model developed via conversion method, achieving high performance under ultra-low latency, while dramatically reducing both computational complexity and training overhead.
- Abstract(参考訳): スパイクベースのトランスは、トランスに固有のエネルギーオーバーヘッドを軽減しつつ、スパイクニューラルネットワークの性能を高めることを目的とした、新しいアーキテクチャである。
しかし、これらのモデルを生成する方法は、直接訓練法によって導入される過度の訓練コストや、既存の変換法で必然的にハードウェアに不都合な操作といった、重大な制約に悩まされる。
本稿では,完全スパイク駆動変圧器の新しい変換法であるCSDformerを提案する。
我々は変換指向のトランスフォーマーベースアーキテクチャをカスタマイズし,自己注意におけるソフトマックスを置き換えるための新しい関数 NReLU を提案する。
その後、このモデルを量子化し、訓練し、時間分解による完全スパイク駆動モデルに変換する。
また,インテグレート・アンド・ファイアニューロンの変換誤差を低減し,スパイキングモデルの性能を向上させるため,遅延したインテグレート・アンド・ファイアニューロンを提案する。
我々は、ImageNet、CIFAR-10、CIFAR-100データセット上でCSDformerを評価し、ImageNetの7ステップで76.36%のトップ1精度を実現し、最先端モデルよりも優れていることを示す。
さらに、CSDformerはSNNのトレーニングの必要性を排除し、トレーニングコストを75%削減し、トレーニング速度を2~3$\times$に向上させる。
我々の知る限り、これは変換法によって開発された最初の完全スパイク駆動型トランスフォーマーモデルであり、超低レイテンシで高い性能を実現し、計算複雑性とトレーニングオーバーヘッドの両方を劇的に削減する。
関連論文リスト
- Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。