論文の概要: Large Language Models Inference Engines based on Spiking Neural Networks
- arxiv url: http://arxiv.org/abs/2510.00133v2
- Date: Thu, 02 Oct 2025 14:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.18614
- Title: Large Language Models Inference Engines based on Spiking Neural Networks
- Title(参考訳): スパイクニューラルネットワークに基づく大規模言語モデル推論エンジン
- Authors: Adarsha Balaji, Sandeep Madireddy,
- Abstract要約: 我々は、トランスモデルを設計するためにスパイキングニューラルネットワーク(SNN)を探索する。
大規模SNNのトレーニングにおける課題は、非効率で時間を要する。
推論のためのトランスフォーマーベースSNNを設計する手法であるNeurTransformerを提案する。
- 参考スコア(独自算出の注目度): 1.319842870139167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundational models based on the transformer architecture are currently the state-of-the-art in general language modeling, as well as in scientific areas such as material science and climate. However, training and deploying these models is computationally challenging as the time and space complexity has a quadratic relation to the input sequence length. Several efforts exploring efficient computational paradigms and model architectures to address these limitations have been made. In this work, we explore spiking neural networks (SNNs) to design transformer models. A challenge in training large-scale SNNs, using existing surrogate learning methods is inefficient and time-consuming. On the other hand, techniques to convert existing transformer-based models to their SNN equivalent are not scalable, as achieving optimal performance comes at the cost of a large number of spike time-steps, i.e. increased latency. To address this, we propose NeurTransformer, a methodology for designing transformer-based SNN for inference using a supervised fine-tuning approach with existing conversion methods. The proposed methodology works by: (1) replacing the self-attention mechanism with a spike-based self-attention (SSA), (2) converting the feed-forward block of the trained transformer model to its equivalent SNN, and (3) fine-tuning the SSA block using SNN-based surrogate learning algorithms. We benchmark the proposed methodology and demonstrate its accuracy and scalability using three variants of the GPT-2 model of increasing model size. We observe that the converted GPT-2 small models demonstrate a 5-12% loss in cosine similarity and a 9.7% reduction in perplexity. Finally, we demonstrate the energy efficiency of the SSA block compared to the ASA block and show between 64.71% and 85.28% reductions in estimated energy consumption when implementing the self-attention mechanism on a digital hardware.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく基礎モデルは、現在、一般的な言語モデリングにおける最先端のモデルであり、物質科学や気候のような科学分野においても同様である。
しかし、時間と空間の複雑さが入力シーケンス長に2次関係を持つため、これらのモデルのトレーニングと展開は計算的に困難である。
これらの制限に対処するために、効率的な計算パラダイムとモデルアーキテクチャを探求する試みがいくつかなされている。
本研究では,トランスモデルを設計するためのスパイクニューラルネットワーク(SNN)について検討する。
既存の代理学習手法を用いて大規模SNNを訓練する際の課題は、非効率で時間を要する。
一方、既存のトランスフォーマーベースのモデルをSNNに変換する手法はスケーラビリティに欠けており、最適な性能を達成するには、多くのスパイクタイムステップ、すなわちレイテンシの増加がかかる。
そこで本稿では,既存の変換手法を用いた教師付き微調整手法を用いて,推論のためのトランスフォーマーベースのSNNを設計する手法であるNeurTransformerを提案する。
提案手法は,(1)自己注意機構をスパイクベース自己注意(SSA)に置き換えること,(2)訓練されたトランスフォーマーモデルのフィードフォワードブロックを等価なSNNに変換すること,(3)SNNに基づく代理学習アルゴリズムを用いてSSAブロックを微調整することによって機能する。
提案手法をベンチマークし,モデルサイズを増大させるGPT-2モデルの3つの変種を用いて,その精度と拡張性を実証する。
変換されたGPT-2のモデルでは、コサイン類似性が5-12%減少し、パープレキシティが9.7%低下した。
最後に、SSAブロックのエネルギー効率をASAブロックと比較し、デジタルハードウェア上で自己保持機構を実装する際に、推定エネルギー消費量を64.71%から85.28%削減することを示した。
関連論文リスト
- CSDformer: A Conversion Method for Fully Spike-Driven Transformer [11.852241487470797]
スパイクベースのトランスは、スパイクニューラルネットワークの性能向上を目的とした、新しいアーキテクチャである。
完全スパイク駆動変圧器の新しい変換法であるCSDformerを提案する。
CSDformerは超低レイテンシで高いパフォーマンスを実現し、計算複雑性とトレーニングオーバーヘッドの両方を劇的に削減する。
論文 参考訳(メタデータ) (2025-09-22T07:55:03Z) - Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。
本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。
TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文 参考訳(メタデータ) (2025-03-06T13:18:37Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Towards High-performance Spiking Transformers from ANN to SNN Conversion [43.53538629484375]
スパイクニューラルネットワーク(SNN)は、そのエネルギー効率、高速処理能力、ロバスト性によって大きな可能性を秘めている。
現在の変換方法は、主に畳み込みニューラルネットワーク(CNN)をSNNに変換することに焦点を当てている。
本稿では,変換の精度を維持するための期待補償モジュールを提案する。
論文 参考訳(メタデータ) (2025-02-28T16:12:37Z) - Binary Event-Driven Spiking Transformer [36.815359983551986]
トランスフォーマーベースのスパイキングニューラルネットワーク(SNN)は、イベント駆動型自己注意パラダイムを導入している。
本稿では,2値イベント駆動型スパイキング変換器,BESTformerを提案する。
BESTformerは、バイナライゼーションの限られた表現能力のため、完全な精度で性能が低下する。
論文 参考訳(メタデータ) (2025-01-10T12:00:11Z) - Adaptive Calibration: A Unified Conversion Framework of Spiking Neural Network [1.5215973379400674]
スパイキングニューラルネットワーク(SNN)は、従来のニューラルネットワーク(ANN)の代替としてエネルギー効率が高いと見なされる
変換されたSNNの性能と効率を大幅に向上させる一貫した学習自由変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T09:38:54Z) - Deep-Unrolling Multidimensional Harmonic Retrieval Algorithms on Neuromorphic Hardware [78.17783007774295]
本稿では,高精度かつエネルギー効率の高い単発多次元高調波検索のための変換に基づくニューロモルフィックアルゴリズムの可能性について検討する。
複雑な値の畳み込み層と活性化をスパイクニューラルネットワーク(SNN)に変換する新しい手法を開発した。
変換されたSNNは、元のCNNに比べて性能が低下し、ほぼ5倍の電力効率を実現している。
論文 参考訳(メタデータ) (2024-12-05T09:41:33Z) - Accelerating Toeplitz Neural Network with Constant-time Inference
Complexity [21.88774274472737]
Toeplitz Neural Networks (TNN) は、様々なシーケンスモデリングタスクにおいて優れた性能を示した。
それらは、ログ線形の時空複雑さの恩恵を受けながら、Transformerベースのモデルよりも優れていた。
本稿では、TNNと状態空間モデル(SSM)の長所を、推論中にTNNをSSMに変換することで組み合わせることを目的とする。
論文 参考訳(メタデータ) (2023-11-15T07:50:57Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。