論文の概要: Sorbet: A Neuromorphic Hardware-Compatible Transformer-Based Spiking Language Model
- arxiv url: http://arxiv.org/abs/2409.15298v1
- Date: Wed, 4 Sep 2024 10:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 20:05:48.843799
- Title: Sorbet: A Neuromorphic Hardware-Compatible Transformer-Based Spiking Language Model
- Title(参考訳): Sorbet: ニューロモルフィックなハードウェア互換トランスフォーマーベースのスパイク言語モデル
- Authors: Kaiwen Tang, Zhanglu Yan, Weng-Fai Wong,
- Abstract要約: スパイキングニューラルネットワーク(SNN)はそのエネルギー効率のために有望なソリューションを提供する。
ソフトマックスやレイヤー正規化(LN)のような重要な操作は、ニューロモルフィックハードウェア上で実装するのが困難である。
よりニューロモルフィックなハードウェア互換なトランスフォーマーベースのスパイク言語モデルであるSorbetを紹介する。
- 参考スコア(独自算出の注目度): 4.8915861089531205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For reasons such as privacy, there are use cases for language models at the edge. This has given rise to small language models (SLMs) targeted for deployment in resource-constrained devices where energy efficiency is a significant concern. Spiking neural networks (SNNs) offer a promising solution due to their energy efficiency, and there are already works on realizing transformer-based models on SNNs. However, key operations like softmax and layer normalization (LN) are difficult to implement on neuromorphic hardware, and many of these early works sidestepped them. To address these challenges, we introduce Sorbet, a transformer-based spiking language model that is more neuromorphic hardware-compatible. Sorbet incorporates a novel shifting-based softmax called PTsoftmax and a power normalization method using bit-shifting (BSPN), both designed to replace the respective energy-intensive operations. By leveraging knowledge distillation and model quantization, Sorbet achieved a highly compressed binary weight model that maintains competitive performance while significantly reducing energy consumption. We validate Sorbet's effectiveness through extensive testing on the GLUE benchmark and a series of ablation studies, demonstrating its potential as an energy-efficient solution for language model inference.
- Abstract(参考訳): プライバシなどの理由から、エッジに言語モデル用のユースケースがある。
これにより、エネルギー効率が重要な懸念事項であるリソース制限されたデバイスへの展開を目的とした、小さな言語モデル(SLM)が生まれている。
スパイキングニューラルネットワーク(SNN)はそのエネルギー効率のために有望なソリューションを提供しており、すでにSNN上でトランスフォーマーベースのモデルの実現に取り組んでいる。
しかしながら、ソフトマックスやレイヤー正規化(LN)のような重要な操作は、ニューロモルフィックなハードウェア上では実装が困難であり、初期の多くの研究がそれらを後押しした。
これらの課題に対処するために,我々は,よりニューロモルフィックなハードウェア互換なトランスフォーマーベースのスパイク言語モデルであるSorbetを紹介した。
SorbetはPTsoftmaxと呼ばれる新しいシフトベースソフトマックスとビットシフト(BSPN)を用いた電力正規化手法を取り入れている。
知識蒸留とモデル量子化を活用することで、ソルベットは競争性能を維持しながらエネルギー消費を大幅に削減する高度に圧縮された二分重モデルを達成した。
本研究では,言語モデル推論におけるエネルギー効率の高い解法としての可能性を示すとともに,GLUEベンチマークの広範囲な検証と一連のアブレーション研究を通じて,Sorbetの有効性を検証する。
関連論文リスト
- Deep-Unrolling Multidimensional Harmonic Retrieval Algorithms on Neuromorphic Hardware [78.17783007774295]
本稿では,高精度かつエネルギー効率の高い単発多次元高調波検索のための変換に基づくニューロモルフィックアルゴリズムの可能性について検討する。
複雑な値の畳み込み層と活性化をスパイクニューラルネットワーク(SNN)に変換する新しい手法を開発した。
変換されたSNNは、元のCNNに比べて性能が低下し、ほぼ5倍の電力効率を実現している。
論文 参考訳(メタデータ) (2024-12-05T09:41:33Z) - Language Modeling on a SpiNNaker 2 Neuromorphic Chip [2.760675104404914]
ニューロモルフィックデバイス上のイベントベースのネットワークは、推論のエネルギー消費を大幅に削減する潜在的方法を提供する。
ニューロモルフィックデバイス上での言語モデルの初の実装を実演する。
論文 参考訳(メタデータ) (2023-12-14T16:16:35Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks [21.616328837090396]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。
イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。
SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文 参考訳(メタデータ) (2023-02-27T16:43:04Z) - Model Blending for Text Classification [0.15229257192293197]
テキスト分類などの自然言語処理におけるアートLSTMモデルの複雑性をCNNベースモデルに抽出することにより,テスト中の推論時間(あるいはレイテンシ)を短縮する。
論文 参考訳(メタデータ) (2022-08-05T05:07:45Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Go Beyond Multiple Instance Neural Networks: Deep-learning Models based
on Local Pattern Aggregation [0.0]
畳み込みニューラルネットワーク(CNN)は、臨床心電図(ECG)と話者非依存音声の処理においてブレークスルーをもたらした。
本稿では,局所的なパターン集約に基づくディープラーニングモデルを提案する。
LPANetと呼ばれる新しいネットワーク構造には、トリミングと集約操作が組み込まれている。
論文 参考訳(メタデータ) (2022-05-28T13:18:18Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - Flexible Transmitter Network [84.90891046882213]
現在のニューラルネットワークはMPモデルに基づいて構築されており、通常はニューロンを他のニューロンから受信した信号の実際の重み付け集約上での活性化関数の実行として定式化する。
本稿では,フレキシブル・トランスミッタ(FT)モデルを提案する。
本稿では、最も一般的な完全接続型フィードフォワードアーキテクチャ上に構築された、フレキシブルトランスミッタネットワーク(FTNet)について述べる。
論文 参考訳(メタデータ) (2020-04-08T06:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。