論文の概要: CoreInfer: Accelerating Large Language Model Inference with Semantics-Inspired Adaptive Sparse Activation
- arxiv url: http://arxiv.org/abs/2410.18311v1
- Date: Wed, 23 Oct 2024 22:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:18.160698
- Title: CoreInfer: Accelerating Large Language Model Inference with Semantics-Inspired Adaptive Sparse Activation
- Title(参考訳): CoreInfer: セマンティックにインスパイアされた適応スパースアクティベーションによる大規模言語モデル推論の高速化
- Authors: Qinsi Wang, Saeed Vahidian, Hancheng Ye, Jianyang Gu, Jianyi Zhang, Yiran Chen,
- Abstract要約: 数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
アダプティブスパースアクティベーション推論(Adaptive sparse activation inference)は、トークンごとに少数のニューロンのみを活性化し、モデル推論を加速する新しい方法を提供する。
本稿では,文レベルの予測に基づく適応的なスパースアクティベーション推論手法であるCoreInferを紹介する。
- 参考スコア(独自算出の注目度): 14.823949309351129
- License:
- Abstract: Large language models (LLMs) with billions of parameters have sparked a new wave of exciting AI applications. However, their high computational costs and memory demands during inference pose significant challenges. Adaptive sparse activation inference, which activates only a small number of neurons for each token, offers a novel way to accelerate model inference without degrading performance, showing great potential for resource-constrained hardware devices. Nevertheless, existing methods predict activated neurons based on individual tokens with additional MLP, which involve frequent changes in activation maps and resource calls, limiting the acceleration benefits of sparse activation. In this paper, we introduce CoreInfer, an MLP-free adaptive sparse activation inference method based on sentence-level prediction. Specifically, we propose the concept of sentence-wise core neurons, which refers to the subset of neurons most critical for a given sentence, and empirically demonstrate its effectiveness. To determine the core neurons, we explore the correlation between core neurons and the sentence's semantics. Remarkably, we discovered that core neurons exhibit both stability and similarity in relation to the sentence's semantics -- an insight overlooked by previous studies. Building on this finding, we further design two semantic-based methods for predicting core neurons to fit different input scenarios. In CoreInfer, the core neurons are determined during the pre-filling stage and fixed during the encoding stage, enabling zero-cost sparse inference. We evaluated the model generalization and task generalization of CoreInfer across various models and tasks. Notably, on an NVIDIA TITAN XP GPU, CoreInfer achieved a 10.33 times and 2.72 times speedup compared to the Huggingface implementation and PowerInfer, respectively.
- Abstract(参考訳): 数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションの新たな波を引き起こしました。
しかし、その高い計算コストと推論時のメモリ要求は大きな課題を生んでいる。
アダプティブスパースアクティベーション推論(Adaptive sparse activation inference)は、トークンごとに少数のニューロンのみを活性化し、性能を低下させることなくモデル推論を加速する新しい方法を提供する。
それにもかかわらず、既存の手法では、活性化マップやリソース呼び出しの頻繁な変化を伴うMLPを付加した個々のトークンに基づいて活性化ニューロンを予測し、スパース活性化の促進効果を制限する。
本稿では,文レベル予測に基づくMLPフリー適応スパースアクティベーション推論手法であるCoreInferを紹介する。
具体的には、ある文に対して最も重要なニューロンのサブセットを参照し、その効果を実証的に示す文右中核ニューロンの概念を提案する。
コアニューロンを決定するために,コアニューロンと文の意味論の相関について検討する。
注目すべきは、中核ニューロンが文の意味論に関して安定性と類似性の両方を示すことだ。
この発見に基づいて、異なる入力シナリオに適合するようにコアニューロンを予測する2つの意味ベース手法を設計する。
CoreInferでは、コアニューロンはプリフィル段階で決定され、エンコーディング段階で固定され、ゼロコストスパース推論が可能である。
我々は、CoreInferのモデル一般化とタスク一般化を、様々なモデルやタスクにわたって評価した。
特にNVIDIA TITAN XP GPUでは、CoreInferはHuggingfaceの実装とPowerInferと比較して10.33倍と2.72倍のスピードアップを達成した。
関連論文リスト
- Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Fast gradient-free activation maximization for neurons in spiking neural networks [5.805438104063613]
このようなループのための効率的な設計のフレームワークを提案する。
トレーニング中の人工ニューロンの最適刺激の変化を追跡する。
この洗練された最適刺激の形成は、分類精度の増大と関連している。
論文 参考訳(メタデータ) (2023-12-28T18:30:13Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - STNDT: Modeling Neural Population Activity with a Spatiotemporal
Transformer [19.329190789275565]
我々は、個々のニューロンの応答を明示的にモデル化するNDTベースのアーキテクチャであるSpatioTemporal Neural Data Transformer (STNDT)を紹介する。
本モデルは,4つのニューラルデータセット間での神経活動の推定において,アンサンブルレベルでの最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2022-06-09T18:54:23Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z) - Unifying and generalizing models of neural dynamics during
decision-making [27.46508483610472]
本稿では,意思決定作業中の神経活動モデリングのための統一フレームワークを提案する。
このフレームワークは標準ドリフト拡散モデルを含み、多次元アキュミュレータ、可変および崩壊境界、離散ジャンプなどの拡張を可能にする。
論文 参考訳(メタデータ) (2020-01-13T23:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。