Fugu-MT 論文翻訳(概要): Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing

論文の概要: Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing

arxiv url: http://arxiv.org/abs/2501.16337v1
Date: Thu, 09 Jan 2025 19:13:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-02 21:31:26.815138
Title: Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing
Title（参考訳）: エネルギー効率の良いニューロモルフィックコンピューティングのためのリカレントLDMの活性化空間探索
Authors: Ivan Knunyants, Maryam Tavakol, Manolis Sifalakis, Yingfu Xu, Amirreza Yousefzadeh, Guangzhi Tang,
Abstract要約: Recurrent Large Language Models (R-LLM) は自己注意の複雑さを軽減するのに有効であることが証明されている。ニューロモルフィックハードウェア上でのエネルギー効率を高めるために,R-LLMの活性化をスパースする,低コストでトレーニング不要なアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 3.379854610429579
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent rise of Large Language Models (LLMs) has revolutionized the deep learning field. However, the desire to deploy LLMs on edge devices introduces energy efficiency and latency challenges. Recurrent LLM (R-LLM) architectures have proven effective in mitigating the quadratic complexity of self-attention, making them a potential paradigm for computing on-edge neuromorphic processors. In this work, we propose a low-cost, training-free algorithm to sparsify R-LLMs' activations to enhance energy efficiency on neuromorphic hardware. Our approach capitalizes on the inherent structure of these models, rendering them well-suited for energy-constrained environments. Although primarily designed for R-LLMs, this method can be generalized to other LLM architectures, such as transformers, as demonstrated on the OPT model, achieving comparable sparsity and efficiency improvements. Empirical studies illustrate that our method significantly reduces computational demands while maintaining competitive accuracy across multiple zero-shot learning benchmarks. Additionally, hardware simulations with the SENECA neuromorphic processor underscore notable energy savings and latency improvements. These results pave the way for low-power, real-time neuromorphic deployment of LLMs and demonstrate the feasibility of training-free on-chip adaptation using activation sparsity.
Abstract（参考訳）: 近年のLarge Language Models(LLM)の台頭は、ディープラーニング分野に革命をもたらした。しかし、エッジデバイスにLSMをデプロイしたいという願望は、エネルギー効率とレイテンシの課題をもたらす。リカレントLLM(R-LLM)アーキテクチャは、自己アテンションの二次的複雑さを軽減し、最先端のニューロモルフィックプロセッサを計算するための潜在的なパラダイムとして有効であることが証明されている。本研究では,R-LLMの活性化を緩和し,ニューロモルフィックハードウェア上でのエネルギー効率を向上させるために,低コストでトレーニング不要なアルゴリズムを提案する。我々のアプローチは、これらのモデルの本質的な構造に重きを置いており、エネルギー制約のある環境に適している。主にR-LLM向けに設計されているが、OPTモデルで示されるようにトランスフォーマーのような他のLLMアーキテクチャに一般化することができ、同等のスパシティと効率改善を実現することができる。実験により,本手法は複数のゼロショット学習ベンチマークにおける競合精度を維持しながら,計算要求を大幅に低減することを示した。さらに、SENECAニューロモルフィックプロセッサによるハードウェアシミュレーションは、顕著な省エネと遅延改善を強調している。これらの結果は、低消費電力でリアルタイムなLLMのニューロモルフィック展開の道を開くとともに、アクティベーション空間を用いたトレーニング不要なオンチップ適応の実現可能性を示す。

関連論文リスト

Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。 POETは、目的関数を安定して最適化し、一般化を改善する。我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文参考訳（メタデータ） (2025-06-09T17:59:34Z)
LLMPi: Optimizing LLMs for High-Throughput on Raspberry Pi [0.48212500317840945]
Raspberry Piのようなリソース制約のあるエッジデバイス上の大規模言語モデル(LLM)は、計算効率、消費電力、レスポンスレイテンシの課題を提示している。本稿では,低消費電力組込みシステム上でのLLMの高スループット・エネルギー効率実行を実現するために,量子化に基づく最適化手法について検討する。我々の発見は、エッジデバイス上でリアルタイムの対話型AIのための量子LLMの可能性を強調し、モバイルおよび組み込みアプリケーションにおける低消費電力で高効率なAIデプロイメントの道を開いた。
論文参考訳（メタデータ） (2025-04-02T20:29:39Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。重要なFFN成分の主記憶容量の約50%の削減と計算精度の低下を無視できる精度で達成する。
論文参考訳（メタデータ） (2024-12-13T02:26:54Z)
eFedLLM: Efficient LLM Inference Based on Federated Learning [1.6179784294541053]
大言語モデル(LLMs)は人工知能(AI)の転換期を告げる本稿では, LLM推論の運用効率と費用対効果を高める効果的な手法を提案する。
論文参考訳（メタデータ） (2024-11-24T22:50:02Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
The Potential of Combined Learning Strategies to Enhance Energy Efficiency of Spiking Neuromorphic Systems [0.0]
この原稿は、畳み込みスパイキングニューラルネットワーク(CSNN)のための新しい複合学習アプローチを通じて、脳にインスパイアされた知覚コンピュータマシンの強化に焦点を当てている。 CSNNは、人間の脳にインスパイアされたエネルギー効率の良いスパイクニューロン処理を提供する、バックプロパゲーションのような従来のパワー集約的で複雑な機械学習手法に代わる、有望な代替手段を提供する。
論文参考訳（メタデータ） (2024-08-13T18:40:50Z)
Learn To be Efficient: Build Structured Sparsity in Large Language Models [17.940183066850565]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。既存の方法は、訓練後の環境で自然に形成された活性化空間の利用にのみ焦点をあてる。本稿では,Learning-To-Efficient (LTE) という学習学習アルゴリズムを導入する。
論文参考訳（メタデータ） (2024-02-09T01:18:16Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
Efficient Transformers in Reinforcement Learning using Actor-Learner Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。 Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文参考訳（メタデータ） (2021-04-04T17:56:34Z)
Learning Discrete Energy-based Models via Auxiliary-variable Local Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文参考訳（メタデータ） (2020-11-10T19:31:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。