論文の概要: Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing
- arxiv url: http://arxiv.org/abs/2501.16337v1
- Date: Thu, 09 Jan 2025 19:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-02 08:51:07.446327
- Title: Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing
- Title(参考訳): エネルギー効率の良いニューロモルフィックコンピューティングのためのリカレントLDMの活性化空間探索
- Authors: Ivan Knunyants, Maryam Tavakol, Manolis Sifalakis, Yingfu Xu, Amirreza Yousefzadeh, Guangzhi Tang,
- Abstract要約: Recurrent Large Language Models (R-LLM) は自己注意の複雑さを軽減するのに有効であることが証明されている。
ニューロモルフィックハードウェア上でのエネルギー効率を高めるために,R-LLMの活性化をスパースする,低コストでトレーニング不要なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 3.379854610429579
- License:
- Abstract: The recent rise of Large Language Models (LLMs) has revolutionized the deep learning field. However, the desire to deploy LLMs on edge devices introduces energy efficiency and latency challenges. Recurrent LLM (R-LLM) architectures have proven effective in mitigating the quadratic complexity of self-attention, making them a potential paradigm for computing on-edge neuromorphic processors. In this work, we propose a low-cost, training-free algorithm to sparsify R-LLMs' activations to enhance energy efficiency on neuromorphic hardware. Our approach capitalizes on the inherent structure of these models, rendering them well-suited for energy-constrained environments. Although primarily designed for R-LLMs, this method can be generalized to other LLM architectures, such as transformers, as demonstrated on the OPT model, achieving comparable sparsity and efficiency improvements. Empirical studies illustrate that our method significantly reduces computational demands while maintaining competitive accuracy across multiple zero-shot learning benchmarks. Additionally, hardware simulations with the SENECA neuromorphic processor underscore notable energy savings and latency improvements. These results pave the way for low-power, real-time neuromorphic deployment of LLMs and demonstrate the feasibility of training-free on-chip adaptation using activation sparsity.
- Abstract(参考訳): 近年のLarge Language Models(LLM)の台頭は、ディープラーニング分野に革命をもたらした。
しかし、エッジデバイスにLSMをデプロイしたいという願望は、エネルギー効率とレイテンシの課題をもたらす。
リカレントLLM(R-LLM)アーキテクチャは、自己アテンションの二次的複雑さを軽減し、最先端のニューロモルフィックプロセッサを計算するための潜在的なパラダイムとして有効であることが証明されている。
本研究では,R-LLMの活性化を緩和し,ニューロモルフィックハードウェア上でのエネルギー効率を向上させるために,低コストでトレーニング不要なアルゴリズムを提案する。
我々のアプローチは、これらのモデルの本質的な構造に重きを置いており、エネルギー制約のある環境に適している。
主にR-LLM向けに設計されているが、OPTモデルで示されるようにトランスフォーマーのような他のLLMアーキテクチャに一般化することができ、同等のスパシティと効率改善を実現することができる。
実験により,本手法は複数のゼロショット学習ベンチマークにおける競合精度を維持しながら,計算要求を大幅に低減することを示した。
さらに、SENECAニューロモルフィックプロセッサによるハードウェアシミュレーションは、顕著な省エネと遅延改善を強調している。
これらの結果は、低消費電力でリアルタイムなLLMのニューロモルフィック展開の道を開くとともに、アクティベーション空間を用いたトレーニング不要なオンチップ適応の実現可能性を示す。
関連論文リスト
- eFedLLM: Efficient LLM Inference Based on Federated Learning [1.6179784294541053]
大言語モデル(LLMs)は人工知能(AI)の転換期を告げる
本稿では, LLM推論の運用効率と費用対効果を高める効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-11-24T22:50:02Z) - Resource Allocation for Stable LLM Training in Mobile Edge Computing [11.366306689957353]
本稿では,モバイルユーザとエッジサーバを統合し,リソース割り当てを最適化する協調トレーニングフレームワークについて検討する。
学習中のエネルギー消費と遅延の総量を最小限に抑えるために,多目的最適化問題を定式化する。
また,モデルの安定性向上を目的関数に組み込むことにより,モデル性能の不安定性の共通問題にも対処する。
論文 参考訳(メタデータ) (2024-09-30T12:36:27Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - The Potential of Combined Learning Strategies to Enhance Energy Efficiency of Spiking Neuromorphic Systems [0.0]
この原稿は、畳み込みスパイキングニューラルネットワーク(CSNN)のための新しい複合学習アプローチを通じて、脳にインスパイアされた知覚コンピュータマシンの強化に焦点を当てている。
CSNNは、人間の脳にインスパイアされたエネルギー効率の良いスパイクニューロン処理を提供する、バックプロパゲーションのような従来のパワー集約的で複雑な機械学習手法に代わる、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2024-08-13T18:40:50Z) - Learn To be Efficient: Build Structured Sparsity in Large Language Models [17.940183066850565]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
既存の方法は、訓練後の環境で自然に形成された活性化空間の利用にのみ焦点をあてる。
本稿では,Learning-To-Efficient (LTE) という学習学習アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-02-09T01:18:16Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - RLFlow: Optimising Neural Network Subgraph Transformation with World
Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。
提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-03T11:52:54Z) - Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文 参考訳(メタデータ) (2021-04-04T17:56:34Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。