論文の概要: Spiking Transformers Need High Frequency Information
- arxiv url: http://arxiv.org/abs/2505.18608v1
- Date: Sat, 24 May 2025 09:15:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.542771
- Title: Spiking Transformers Need High Frequency Information
- Title(参考訳): スパイキング変換器は高周波情報を必要とする
- Authors: Yuetong Fang, Deming Zhou, Ziqing Wang, Hongwei Ren, ZeCui Zeng, Lusong Li, Shibo Zhou, Renjing Xu,
- Abstract要約: スパイキングトランスフォーマーは、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。
スパイキングニューロンが低周波情報を優先的に伝播するのは,今回が初めてである。
2つの周波数エンハンシング演算子を通して高周波信号を復元するMax-Formerを導入する。
- 参考スコア(独自算出の注目度): 0.6906109489246287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spiking Transformers offer an energy-efficient alternative to conventional deep learning by transmitting information solely through binary (0/1) spikes. However, there remains a substantial performance gap compared to artificial neural networks. A common belief is that their binary and sparse activation transmission leads to information loss, thus degrading feature representation and accuracy. In this work, however, we reveal for the first time that spiking neurons preferentially propagate low-frequency information. We hypothesize that the rapid dissipation of high-frequency components is the primary cause of performance degradation. For example, on Cifar-100, adopting Avg-Pooling (low-pass) for token mixing lowers performance to 76.73%; interestingly, replacing it with Max-Pooling (high-pass) pushes the top-1 accuracy to 79.12%, surpassing the well-tuned Spikformer baseline by 0.97%. Accordingly, we introduce Max-Former that restores high-frequency signals through two frequency-enhancing operators: extra Max-Pooling in patch embedding and Depth-Wise Convolution in place of self-attention. Notably, our Max-Former (63.99 M) hits the top-1 accuracy of 82.39% on ImageNet, showing a +7.58% improvement over Spikformer with comparable model size (74.81%, 66.34 M). We hope this simple yet effective solution inspires future research to explore the distinctive nature of spiking neural networks, beyond the established practice in standard deep learning.
- Abstract(参考訳): スパイキングトランスフォーマーは、バイナリ(0/1)スパイクのみを通して情報を伝達することで、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。
しかし、人工ニューラルネットワークと比較すると、大きなパフォーマンスギャップが残っている。
共通する信念は、それらのバイナリとスパースなアクティベーション伝達が情報損失を招き、特徴表現と精度を低下させるというものである。
しかし,本研究では,ニューロンのスパイクが低周波情報を優先的に伝播することが初めて明らかになった。
我々は,高周波成分の急激な消散が性能劣化の主な原因であるという仮説を立てた。
例えば、Cifar-100では、トークンミキシングにAvg-Pooling(ローパス)を採用すると、パフォーマンスが76.73%低下する。
そこで我々は,2つの周波数エンハンシング演算子(パッチ埋め込みにおけるMax-Poolingの追加)と,自己注意の代わりにDepth-Wise Convolution(Depth-Wise Convolution)という,高周波信号を復元するMax-Formerを紹介した。
私たちのMax-Former(63.99M)はImageNetで82.39%の精度でトップ-1に到達し、モデルサイズ(74.81%、66.34M)のSpikformerよりも7.58%改善した。
この単純だが効果的なソリューションが、今後の研究に刺激を与えて、スパイクニューラルネットワークの独特な性質を、標準的ディープラーニングの確立した実践を超えて探求することを願っている。
関連論文リスト
- Hardware-accelerated graph neural networks: an alternative approach for neuromorphic event-based audio classification and keyword spotting on SoC FPGA [12.261656409413753]
音声処理のための事象グラフニューラルネットワークのFPGA実装
システムは最大95%のワードエンド検出精度を実現し、10.53マイクロ秒のレイテンシと1.18Wの消費電力しか持たない。
論文 参考訳(メタデータ) (2026-02-18T13:26:22Z) - Spark Transformer: Reactivating Sparsity in FFN and Attention [63.20677098823873]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文 参考訳(メタデータ) (2025-06-07T03:51:13Z) - Integer Binary-Range Alignment Neuron for Spiking Neural Networks [30.778583483869426]
スパイキングニューラルネットワーク(SNN)は、脳に似た計算とエネルギー効率で有名だが、表現能力の制限による画像分類やオブジェクト検出といったタスクでは、人工知能ニューラルネットワーク(ANN)よりも遅れている。
スパイキングニューロンの情報表現能力を指数関数的に拡張する新しいスパイキングニューロンBinary-Range Alignment Leaky Integrate-and-Fireを提案する。
論文 参考訳(メタデータ) (2025-06-06T02:05:33Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - End-to-End Implicit Neural Representations for Classification [57.55927378696826]
Inlicit Neural representations (INRs) は、ニューラルネットワークパラメータの信号を符号化し、信号再構成に優れた結果を示す。
INRをベースとした分類は、CNNのようなピクセルベースの手法に比べて、依然としてかなり低性能である。
本研究は,SIRENを学習段階のスキームとともに初期化するエンド・ツー・エンドの戦略を提案する。
論文 参考訳(メタデータ) (2025-03-23T16:02:23Z) - SpiLiFormer: Enhancing Spiking Transformers with Lateral Inhibition [29.724968607408048]
トランスフォーマーに基づくスパイクニューラルネットワーク(SNN)は、優れた性能と高エネルギー効率のために大きな注目を集めている。
本研究では,無関係な文脈に過度に注意を集中する問題に対処するために,横方向抑制インスパイアされたスパイキング変換器(SpiLiFormer)を提案する。
SpiLiFormerは、脳の側方抑制機構をエミュレートし、無関係なトークンへの注意を抑えながら、関連するトークンへの注意を高めるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-03-20T09:36:31Z) - Scaling Spike-driven Transformer with Efficient Spike Firing Approximation Training [17.193023656793464]
脳にインスパイアされたスパイキングニューラルネットワーク(SNN)の野望は、従来のニューラルネットワーク(ANN)に代わる低消費電力な代替手段になることである。
この作業は、SNNとANNのパフォーマンスギャップと、SNNの高トレーニングコストという、このビジョンを実現する上での2つの大きな課題に対処する。
本研究では,2次発火機構によるスパイクニューロンの固有の欠陥を同定し,整数学習とスパイク駆動推論を用いたスパイクフィリング近似(SFA)法を提案する。
論文 参考訳(メタデータ) (2024-11-25T03:05:41Z) - Spiking Wavelet Transformer [1.8712213089437697]
スパイキングニューラルネットワーク(SNN)は、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。
SNNの変換器は精度が保証されているが、高周波パターンの学習に苦労している。
本研究では、スパイク駆動方式で包括的空間周波数特徴を効果的に学習する無注意アーキテクチャであるSpking Wavelet Transformer(SWformer)を提案する。
論文 参考訳(メタデータ) (2024-03-17T08:41:48Z) - Enhancing Cross-Dataset Performance of Distracted Driving Detection With Score Softmax Classifier And Dynamic Gaussian Smoothing Supervision [6.891556476231427]
ディープニューラルネットワークは、車内ドライバのリアルタイム監視を可能にし、邪魔や疲労、潜在的な危険のタイムリーな予測を容易にする。
最近の研究では、限られたデータサンプルとバックグラウンドノイズにより、信頼性の低いクロスデータセットドライバの動作認識が明らかにされている。
Score-Softmax分類器を提案し、カテゴリ独立性を高めてモデル過信を低減する。
論文 参考訳(メタデータ) (2023-10-08T15:28:01Z) - Spikingformer: Spike-driven Residual Learning for Transformer-based
Spiking Neural Network [19.932683405796126]
スパイキングニューラルネットワーク(SNN)は、人工ニューラルネットワークに代わる有望なエネルギー効率の代替手段を提供する。
SNNは、残余接続の構造によって引き起こされる非スパイク計算に悩まされる。
我々は、純粋なトランスをベースとしたスパイクニューラルネットワークであるSpkingformerを開発した。
論文 参考訳(メタデータ) (2023-04-24T09:44:24Z) - Phase-shifted Adversarial Training [8.89749787668458]
反応周波数のレンズによる対向訓練の挙動を解析する。
PhaseATは高周波情報の収束を著しく改善する。
これにより、モデルが各データ付近でスムーズな予測を行うことで、対向ロバスト性を向上させることができる。
論文 参考訳(メタデータ) (2023-01-12T02:25:22Z) - MEIL-NeRF: Memory-Efficient Incremental Learning of Neural Radiance Fields [57.45449735562065]
我々は、NeRF(MEIL-NeRF)のためのメモリ効率の良いインクリメンタル学習アルゴリズムを開発した。
MEIL-NeRFはNeRF自体からインスピレーションを得て、ニューラルネットワークがクエリとして与えられたピクセルRGB値を提供するメモリとして機能する。
その結果、MEIL-NeRFはメモリ消費と競合性能を一定に示すことができた。
論文 参考訳(メタデータ) (2022-12-16T08:04:56Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。
このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。
次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-03-28T01:53:34Z) - Scatterbrain: Unifying Sparse and Low-rank Attention Approximation [25.375024028636663]
そこで我々はScatterbrainを提案する。Scatterbrainは(局所性に敏感なハッシュによる)スパースと(カーネル特徴マップによる)低ランクの注意を正確な近似のために統一する新しい方法である。
Scatterbrain は BigGAN 画像生成と 事前訓練した T2T-ViT のドロップイン置換において, ベースラインの2.1倍の誤差を達成できることを実証的に示す。
Scatterbrain for end-to-end training with up 4 points better perplexity and 5 points better average accuracy than sparse or low-rank efficient transformer on language modeling and long-range-arena task。
論文 参考訳(メタデータ) (2021-10-28T17:52:17Z) - SOUL: An Energy-Efficient Unsupervised Online Learning Seizure Detection
Classifier [68.8204255655161]
神経活動を記録して発作を検出するインプラントデバイスは、発作を抑えるために警告を発したり神経刺激を誘発したりするために採用されている。
移植可能な発作検出システムでは、低出力で最先端のオンライン学習アルゴリズムを使用して、神経信号のドリフトに動的に適応することができる。
SOULはTSMCの28nmプロセスで0.1mm2を占め、1.5nJ/分級エネルギー効率を実現した。
論文 参考訳(メタデータ) (2021-10-01T23:01:20Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Neural Network Virtual Sensors for Fuel Injection Quantities with
Provable Performance Specifications [71.1911136637719]
証明可能な保証が、他の現実世界の設定にどのように自然に適用できるかを示す。
本研究では, 燃料噴射量を一定範囲で最大化するために, 特定の間隔の燃料噴射量を目標にする方法を示す。
論文 参考訳(メタデータ) (2020-06-30T23:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。