論文の概要: Exploring Extreme Quantization in Spiking Language Models
- arxiv url: http://arxiv.org/abs/2405.02543v3
- Date: Mon, 1 Jul 2024 17:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 14:10:11.657671
- Title: Exploring Extreme Quantization in Spiking Language Models
- Title(参考訳): スパイキング言語モデルにおける極端量子化の探索
- Authors: Malyaban Bal, Yi Jiang, Abhronil Sengupta,
- Abstract要約: 本稿では,新しい2進/3進(1/1.58ビット)スパイクLMアーキテクチャの開発を提案する。
提案手法は,1/1.58ビットの1次スパイキングLMとして大きく進歩した。
- 参考スコア(独自算出の注目度): 7.986844499514244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the growing prevalence of large language model (LLM) architectures, a crucial concern persists regarding their energy and power consumption, which still lags far behind the remarkable energy efficiency of the human brain. Recent strides in spiking language models (LM) and transformer architectures aim to address this concern by harnessing the spiking activity of biological neurons to enhance energy/power efficiency. Doubling down on the principles of model quantization and energy efficiency, this paper proposes the development of a novel binary/ternary (1/1.58-bit) spiking LM architecture. Achieving scalability comparable to a deep spiking LM architecture is facilitated by an efficient knowledge distillation technique, wherein knowledge from a non-spiking full-precision "teacher" model is transferred to an extremely weight quantized spiking "student" LM. Our proposed model represents a significant advancement as the first-of-its-kind 1/1.58-bit spiking LM, and its performance is rigorously evaluated on multiple text classification tasks of the GLUE benchmark.
- Abstract(参考訳): 大きな言語モデル(LLM)アーキテクチャの普及にもかかわらず、人間の脳の目覚ましいエネルギー効率よりもはるかに遅れている、そのエネルギーと電力消費に関する重要な懸念が続いている。
スパイキング言語モデル(LM)やトランスフォーマーアーキテクチャの最近の進歩は、生体ニューロンのスパイキング活性を利用してエネルギー/電力効率を向上させることでこの問題に対処することを目指している。
本稿では,モデル量子化の原理とエネルギー効率を両立させ,新しい二元/三元(1/1.58ビット)スパイクLMアーキテクチャを提案する。
ディープスパイキング LM アーキテクチャに匹敵するスケーラビリティの達成は、効率的な知識蒸留技術によって促進され、非スパイキング完全精度の "Teacher" モデルからの知識は、非常に重く定量化された "student" LMに転送される。
提案手法は1/1.58ビットの1/1.58ビットのスパイクLMとして大きく進歩し,その性能はGLUEベンチマークの複数のテキスト分類タスクにおいて厳密に評価されている。
関連論文リスト
- Impact of ML Optimization Tactics on Greener Pre-Trained ML Models [46.78148962732881]
本研究の目的は,画像分類データセットと事前学習モデルの解析,最適化モデルと非最適化モデルを比較して推論効率を向上させること,最適化の経済的影響を評価することである。
画像分類におけるPyTorch最適化手法(動的量子化、トーチ・コンパイル、局所プルーニング、グローバルプルーニング)と42のHugging Faceモデルの影響を評価するための制御実験を行った。
動的量子化は推論時間とエネルギー消費の大幅な削減を示し、大規模システムに非常に適している。
論文 参考訳(メタデータ) (2024-09-19T16:23:03Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。
LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - Efficient Materials Informatics between Rockets and Electrons [0.0]
この論文は、超高温耐火高エントロピー合金(RHEA)を組み込んだ機能性グレード材料(FGM)の設計に焦点を当てている。
原子レベルでは、MPDDと呼ばれる450万以上の緩和された構造から機械学習(ML)に最適化されたデータエコシステムが、実験的な観察を知らせ、熱力学モデルを改善するために使用される。
結果として生じるマルチレベル発見インフラストラクチャは、既存のソリューションを探すのではなく、問題のエンコーディングに重点を置いているため、非常に一般化可能である。
論文 参考訳(メタデータ) (2024-07-05T17:03:26Z) - Lightweight Geometric Deep Learning for Molecular Modelling in Catalyst Discovery [0.0]
Open Catalyst Projectは、グラフニューラルネットワーク(GNN)の進歩を適用して、触媒発見の進展を加速することを目的としている。
幾何学的および対称的なメッセージパッシングのようなロバストな設計パターンを実装することで、吸着と表面の相互作用の原子間力を予測するために、0.0748のMAEに達したGNNモデルを訓練することができた。
論文 参考訳(メタデータ) (2024-04-05T17:13:51Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - SpikingBERT: Distilling BERT to Train Spiking Language Models Using
Implicit Differentiation [2.3361887733755897]
大型言語モデル(LLMs)は、ヒト脳よりもニューロンとシナプスが桁違いに少ない。
本稿では,脳内のシナプス情報の流れから動機づけを引き出すことにより,従来のLMの計算コストを削減することを目的とした,バイオインスパイアされたスパイク言語モデルを提案する。
我々の研究は、GLUEベンチマークで複数の異なるタスクにおいて、運用上のスパイクするLMアーキテクチャのパフォーマンスを実証する最初のものである。
論文 参考訳(メタデータ) (2023-08-21T17:20:05Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - Latent Diffusion Energy-Based Model for Interpretable Text Modeling [104.85356157724372]
本稿では,拡散モデルと潜時空間ESMの共生を変動学習フレームワークで導入する。
我々は,学習した潜在空間の品質を向上させるために,情報ボトルネックと合わせて幾何学的クラスタリングに基づく正規化を開発する。
論文 参考訳(メタデータ) (2022-06-13T03:41:31Z) - Interpretable Convolutional Neural Networks for Subject-Independent
Motor Imagery Classification [22.488536453952964]
本稿では,脳コンピュータインタフェース(BCI)研究のための説明可能なディープラーニングモデルを提案する。
具体的には,運動画像(MI)タスクから得られる脳波信号を分類することを目的とする。
トポグラフィーでLRPの出力を示す熱マップを可視化し, 神経生理学的因子の同定を行った。
論文 参考訳(メタデータ) (2021-12-14T07:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。