論文の概要: Head-Tail-Aware KL Divergence in Knowledge Distillation for Spiking Neural Networks
- arxiv url: http://arxiv.org/abs/2504.20445v1
- Date: Tue, 29 Apr 2025 05:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.765985
- Title: Head-Tail-Aware KL Divergence in Knowledge Distillation for Spiking Neural Networks
- Title(参考訳): スパイクニューラルネットワークの知識蒸留におけるヘッドテール対応KLの多様性
- Authors: Tianqing Zhang, Zixin Zhu, Kairong Yu, Hongwei Wang,
- Abstract要約: エネルギー効率のよい計算手法としてスパイキングニューラルネットワーク(SNN)が登場している。
SNNは、ニューラルネットワーク(ANN)と比較して、しばしばパフォーマンスギャップを示す
- 参考スコア(独自算出の注目度): 4.943844247308908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spiking Neural Networks (SNNs) have emerged as a promising approach for energy-efficient and biologically plausible computation. However, due to limitations in existing training methods and inherent model constraints, SNNs often exhibit a performance gap when compared to Artificial Neural Networks (ANNs). Knowledge distillation (KD) has been explored as a technique to transfer knowledge from ANN teacher models to SNN student models to mitigate this gap. Traditional KD methods typically use Kullback-Leibler (KL) divergence to align output distributions. However, conventional KL-based approaches fail to fully exploit the unique characteristics of SNNs, as they tend to overemphasize high-probability predictions while neglecting low-probability ones, leading to suboptimal generalization. To address this, we propose Head-Tail Aware Kullback-Leibler (HTA-KL) divergence, a novel KD method for SNNs. HTA-KL introduces a cumulative probability-based mask to dynamically distinguish between high- and low-probability regions. It assigns adaptive weights to ensure balanced knowledge transfer, enhancing the overall performance. By integrating forward KL (FKL) and reverse KL (RKL) divergence, our method effectively align both head and tail regions of the distribution. We evaluate our methods on CIFAR-10, CIFAR-100 and Tiny ImageNet datasets. Our method outperforms existing methods on most datasets with fewer timesteps.
- Abstract(参考訳): スパイキングニューラルネットワーク(SNN)は、エネルギー効率と生物学的に妥当な計算のための有望なアプローチとして登場した。
しかしながら、既存のトレーニング手法と固有のモデル制約の制限により、SNNは、ニューラルネットワーク(ANN)と比較して、しばしばパフォーマンスのギャップが生じる。
知識蒸留(KD)は、ANN教師モデルからSNN学生モデルへ知識を伝達し、このギャップを緩和する手法として研究されている。
従来のKD手法では、出力分布の整列にKL(Kullback-Leibler)の発散を用いるのが一般的である。
しかし、従来のKLベースのアプローチでは、高確率予測を過度に強調し、低確率予測を無視する傾向があるため、SNNのユニークな特徴を完全に活用することができない。
そこで我々は,SNNのための新しいKD手法であるHTA-KL(Head-Tail Aware Kullback-Leibler)の発散を提案する。
HTA-KLは、高確率領域と低確率領域を動的に区別する累積確率ベースのマスクを導入する。
適応的な重み付けを割り当て、バランスの取れた知識の伝達を確実にし、全体的なパフォーマンスを向上させる。
前方KL (FKL) と逆KL (RKL) の分岐を統合することにより, 分布の頭部領域と尾領域を効果的に整合させる。
我々は,CIFAR-10,CIFAR-100およびTiny ImageNetデータセットを用いて評価を行った。
提案手法は,ほとんどのデータセットにおける既存の手法よりも少ない時間ステップで性能を向上する。
関連論文リスト
- Free-Knots Kolmogorov-Arnold Network: On the Analysis of Spline Knots and Advancing Stability [16.957071012748454]
Kolmogorov-Arnold Neural Networks (KAN)は、機械学習コミュニティにおいて大きな注目を集めている。
しかしながら、それらの実装はトレーニングの安定性が悪く、重いトレーニング可能なパラメータに悩まされることが多い。
本研究では, スプラインノットのレンズによるカンの挙動を解析し, B-スプライン系カンの結び目数に対する上下境界を導出する。
論文 参考訳(メタデータ) (2025-01-16T04:12:05Z) - Discriminative and Consistent Representation Distillation [6.24302896438145]
識別・一貫性蒸留(DCD)
DCDは、教師と生徒の表現の分布の相違を最小限に抑えるために、一貫性の規則化とともに対照的な損失を生んでいる。
本手法では,これらの相補的目的のバランスをとるために,訓練中に適応する学習可能な温度パラメータとバイアスパラメータを導入する。
論文 参考訳(メタデータ) (2024-07-16T14:53:35Z) - BKDSNN: Enhancing the Performance of Learning-based Spiking Neural Networks Training with Blurred Knowledge Distillation [20.34272550256856]
スパイキングニューラルネットワーク(SNN)は、生物学的ニューラルネットワークを模倣し、離散スパイクを介して情報を伝達する。
本研究は,静的およびニューロモルフィックなデータセット上でSNNをトレーニングするための最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-12T08:17:24Z) - CADE: Cosine Annealing Differential Evolution for Spiking Neural Network [3.933578042941731]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングとエネルギー効率のよい人工知能のポテンシャルで有名になった。
本稿では,CADE(Cosine Annealing Differential Evolution)を導入して課題に挑戦する。
CADEは、SNNモデル、すなわちスパイキング要素ワイズ(SEW)ResNetの差分進化の突然変異因子(F)とクロスオーバー率(CR)を変調する。
論文 参考訳(メタデータ) (2024-06-04T14:24:35Z) - Accelerated Linearized Laplace Approximation for Bayesian Deep Learning [34.81292720605279]
ニューラルタンジェントカーネル(NTK)に対するNystrom近似を開発し、LLAを加速する。
我々の手法は、フォワードモード自動微分のための人気のあるディープラーニングライブラリの能力から恩恵を受ける。
私たちの方法では、視覚変換器のようなアーキテクチャまでスケールアップできます。
論文 参考訳(メタデータ) (2022-10-23T07:49:03Z) - ESCHER: Eschewing Importance Sampling in Games by Computing a History
Value Function to Estimate Regret [97.73233271730616]
超大型ゲームにおけるナッシュ均衡の近似手法 : ニューラルネットワークを用いて近似最適ポリシー(戦略)を学習する
DREAMは,モンテカルロCFR(MCCFR)から受け継がれた重要なサンプリング項により,極めて高いばらつきを有すると推定された後悔のターゲット上で,ニューラルネットワークを訓練する。
ESCHERの深層学習バージョンは、DREAMとニューラル・フィクション・セルフプレイ(NFSP)の先行状態よりも優れており、ゲームサイズが大きくなるにつれて、その違いは劇的になる。
論文 参考訳(メタデータ) (2022-06-08T18:43:45Z) - Knowledge Enhanced Neural Networks for relational domains [83.9217787335878]
我々は、ニューラルネットワークに事前論理的知識を注入するニューラルネットワークアーキテクチャであるKENNに焦点を当てる。
本稿では,関係データに対するKENNの拡張を提案する。
論文 参考訳(メタデータ) (2022-05-31T13:00:34Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Ensembles of Spiking Neural Networks [0.3007949058551534]
本稿では,最先端の結果を生み出すスパイクニューラルネットワークのアンサンブルを構築する方法について述べる。
MNIST, NMNIST, DVS Gestureデータセットの分類精度は98.71%, 100.0%, 99.09%である。
我々は、スパイキングニューラルネットワークをGLM予測器として形式化し、ターゲットドメインに適した表現を識別する。
論文 参考訳(メタデータ) (2020-10-15T17:45:18Z) - Neural Networks Enhancement with Logical Knowledge [83.9217787335878]
関係データに対するKENNの拡張を提案する。
その結果、KENNは、存在関係データにおいても、基礎となるニューラルネットワークの性能を高めることができることがわかった。
論文 参考訳(メタデータ) (2020-09-13T21:12:20Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。