論文の概要: An Efficient GNNs-to-KANs Distillation via Self-Attention Dynamic Sampling with Potential for Consumer Electronics Edge Deployment
- arxiv url: http://arxiv.org/abs/2509.00560v1
- Date: Sat, 30 Aug 2025 16:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.284325
- Title: An Efficient GNNs-to-KANs Distillation via Self-Attention Dynamic Sampling with Potential for Consumer Electronics Edge Deployment
- Title(参考訳): 消費者電子製品エッジ展開の可能性を考慮した自己注意型動的サンプリングによる効率的なGNN-to-KAN蒸留
- Authors: Can Cui, Zilong Fu, Penghe Huang, Yuanyuan Li, Wu Deng, Dongyan Li,
- Abstract要約: 本稿では,グラフネットワークからコルモゴロフ・アルノルドネットワーク(KAN)への知識蒸留のための革新的な枠組みを紹介する。
学習可能な周波数ベースと位相シフト機構を組み込むことにより、FR-KANは計算複雑性を効果的に低減しつつ、その非線形適合性を著しく改善する。
6つの実世界のデータセットで実施された実験では、SA-DSDは3つのGNN教師モデルより3.05%-3.62%、FR-KAN+モデルより15.61%の性能向上を達成した。
- 参考スコア(独自算出の注目度): 12.385364522094612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is crucial for deploying deep learning models in resource-constrained edge environments, particularly within the consumer electronics sector, including smart home devices, wearable technology, and mobile terminals. These applications place higher demands on model compression and inference speed, necessitating the transfer of knowledge from Graph Neural Networks (GNNs) to more efficient Multi-Layer Perceptron (MLP) models. However, due to their fixed activation functions and fully connected architecture, MLPs face challenges in rapidly capturing the complex neighborhood dependencies learned by GNNs, thereby limiting their performance in edge environments. To address these limitations, this paper introduces an innovative from GNNs to Kolmogorov-Arnold Networks (KANs) knowledge distillation framework-Self Attention Dynamic Sampling Distillation (SA-DSD). This study improved Fourier KAN (FR-KAN) and replaced MLP with the improved FR-KAN+ as the student model. Through the incorporation of learnable frequency bases and phase-shift mechanisms, along with algorithmic optimization, FR-KAN significantly improves its nonlinear fitting capability while effectively reducing computational complexity. Building on this, a margin-level sampling probability matrix, based on teacher-student prediction consistency, is constructed, and an adaptive weighted loss mechanism is designed to mitigate performance degradation in the student model due to the lack of explicit neighborhood aggregation. Extensive experiments conducted on six real-world datasets demonstrate that SA-DSD achieves performance improvements of 3.05%-3.62% over three GNN teacher models and 15.61% over the FR-KAN+ model. Moreover, when compared with key benchmark models, SA-DSD achieves a 16.96x reduction in parameter count and a 55.75% decrease in inference time.
- Abstract(参考訳): 知識蒸留(KD)は、リソース制約のあるエッジ環境、特にスマートホームデバイス、ウェアラブル技術、モバイル端末を含む家電分野において、ディープラーニングモデルをデプロイするために不可欠である。
これらのアプリケーションは、グラフニューラルネットワーク(GNN)からより効率的なMulti-Layer Perceptron(MLP)モデルへの知識の転送を必要とするモデル圧縮と推論速度により高い要求を与える。
しかし、それらの固定活性化関数と完全に接続されたアーキテクチャにより、MPPはGNNが学習した複雑な近傍依存性を迅速に捕捉し、エッジ環境での性能を制限するという課題に直面している。
これらの制約に対処するために,本稿では,GNN から Kolmogorov-Arnold Networks (KANs) の知識蒸留フレームワーク-Self Attention Dynamic Sampling Distillation (SA-DSD) への革新的アプローチを紹介する。
本研究はFourier Kan(FR-KAN)を改良し,学生モデルとしてMLPをFR-KAN+に置き換えた。
学習可能な周波数ベースと位相シフト機構の導入とアルゴリズム最適化により、FR-KANは計算複雑性を効果的に低減し、非線形適合性を著しく改善する。
これに基づいて、教師-学生予測整合性に基づくマージンレベルサンプリング確率行列を構築し、明示的な近傍集合の欠如による生徒モデルの性能劣化を軽減するために適応重み付き損失機構を設計する。
6つの実世界のデータセットで実施された大規模な実験により、SA-DSDは3つのGNN教師モデルより3.05%-3.62%、FR-KAN+モデルより15.61%の性能向上を達成した。
さらに、主要なベンチマークモデルと比較すると、SA-DSDはパラメータ数を16.96倍、推論時間を55.75%削減する。
関連論文リスト
- A Lightweight Deep Learning Model for Automatic Modulation Classification using Dual Path Deep Residual Shrinkage Network [0.0]
自動変調分類(AMC)はスペクトル効率を高める上で重要な役割を果たしている。
低複雑性と高い分類精度のバランスをとる軽量AMCモデルの必要性が高まっている。
本稿では,資源制約エッジデバイスに最適化された低複雑さ,軽量深層学習(DL)AMCモデルを提案する。
論文 参考訳(メタデータ) (2025-07-07T00:37:54Z) - Auto-Compressing Networks [59.83547898874152]
本稿では,各層からの付加的な長フィードフォワード接続が従来の短残コネクションに取って代わるアーキテクチャ変種であるAuto-Nets(ACNs)を紹介する。
ACNは、トレーニング中に情報を有機的に圧縮するネットワークの能力である、"auto-compression"(自動圧縮)という独自の特性を示します。
その結果,ACNは残差ネットワークに比べて耐雑音性が向上し,低データ設定性能が向上し,破滅的忘れを軽減できることがわかった。
論文 参考訳(メタデータ) (2025-06-11T13:26:09Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - DA-LIF: Dual Adaptive Leaky Integrate-and-Fire Model for Deep Spiking Neural Networks [5.832445095443944]
スパイキングニューラルネットワーク(SNN)は、時間的情報を効率的に処理する能力によって評価される。
本稿では,独立に学習可能な減衰を伴う空間的・時間的チューニングを導入したDual Leaky Integrate-and-Fire(DA-LIF)モデルを提案する。
論文 参考訳(メタデータ) (2025-02-05T09:02:07Z) - Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing [3.379854610429579]
Recurrent Large Language Models (R-LLM) は自己注意の複雑さを軽減するのに有効であることが証明されている。
ニューロモルフィックハードウェア上でのエネルギー効率を高めるために,R-LLMの活性化をスパースする,低コストでトレーニング不要なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-09T19:13:03Z) - HM-DF SNN: Transcending Conventional Online Learning with Advanced Training and Deployment [39.6783548791379]
スパイキングニューラルネットワーク(SNN)は、人工知能の将来の発展において大きな可能性を秘めていると考えられている。
現在のオンライン学習フレームワークは、時間依存勾配の不分離問題に対処できない。
本稿では,それぞれ異なるスパイキング計算方式を採用する高度なモデル群であるHM-DF(Hybrid Mechanism-Driven Firing)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-10T02:39:22Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - lpSpikeCon: Enabling Low-Precision Spiking Neural Network Processing for
Efficient Unsupervised Continual Learning on Autonomous Agents [14.916996986290902]
効率的な教師なし連続学習のための低精度SNN処理を可能にする新しい手法であるlpSpikeConを提案する。
我々のlpSpikeConは、教師なし連続学習によるオンライントレーニングを行うために、SNNモデルの重量記憶を8倍(すなわち、4ビットの重みを司法的に採用することで)削減することができる。
論文 参考訳(メタデータ) (2022-05-24T18:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。