論文の概要: Spatio-Temporal Pruning for Compressed Spiking Large Language Models
- arxiv url: http://arxiv.org/abs/2508.20122v1
- Date: Sat, 23 Aug 2025 22:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.562209
- Title: Spatio-Temporal Pruning for Compressed Spiking Large Language Models
- Title(参考訳): 圧縮スパイク大言語モデルのための時空間時空間プルーニング
- Authors: Yi Jiang, Malyaban Bal, Brian Matejek, Susmit Jha, Adam Cobb, Abhronil Sengupta,
- Abstract要約: 大規模言語モデル(LLM)は、大きなモデルサイズと高い推論遅延のため、エネルギー環境への展開に重大な課題をもたらす。
高速な性能を維持しながら計算効率を最適化するスパイクLDMのための新しいスパイク時空プルーニングフレームワークを提案する。
私たちのアプローチは、リアルタイムで低消費電力の自然言語処理アプリケーションに魅力的なソリューションを提供します。
- 参考スコア(独自算出の注目度): 23.74945347657827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) present significant challenges for deployment in energy-constrained environments due to their large model sizes and high inference latency. Spiking Neural Networks (SNNs), inspired by the sparse event-driven neural processing and energy-efficient information transmission in the brain, offer a promising alternative for achieving low-power computing. Integrating the event-driven efficiency of spiking neurons with the advanced capabilities of LLMs represents a promising direction for power-efficient LLMs. This work specifically delves into the design of compressed spiking LLMs. Here, we revisit spatial and temporal pruning from the perspective of SNNs and propose a novel spatio-temporal pruning framework for Spiking LLMs to optimize computational efficiency while preserving high performance. Our spatial pruning technique reduces the number of active neurons and attention heads, effectively lowering the computational complexity of the model. Meanwhile, temporal pruning minimizes inference latency by dynamically adjusting the number of timesteps required for different layers. By combining these approaches with other compression techniques, we present the first work in the domain of Spiking LLMs to jointly explore spatial pruning, temporal pruning, extreme quantization and knowledge distillation strategies. Extensive experimental evaluation of our proposed framework for SpikingBERT on the large-scale GLUE benchmark demonstrates the efficacy of our approach in terms of computational operations and inference latency. Our approach offers a compelling solution for real-time, low-power natural language processing applications, making Spiking LLMs more practical for deployment on edge devices and in power-constrained settings.
- Abstract(参考訳): 大きな言語モデル(LLM)は、大きなモデルサイズと高い推論遅延のため、エネルギー制約のある環境にデプロイする上で大きな課題となる。
スパースイベント駆動ニューラル処理と脳内のエネルギー効率の高い情報伝達にインスパイアされたスパイキングニューラルネットワーク(SNN)は、低消費電力コンピューティングを実現するための有望な代替手段を提供する。
スパイキングニューロンの事象駆動効率とLSMの高度な能力を統合することは、電力効率の高いLSMにとって有望な方向である。
この研究は、圧縮スパイリング LLM の設計に特化している。
そこで我々は,SNNの観点から空間的および時間的プルーニングを再検討し,高い性能を維持しながら計算効率を最適化するスパイキングLLMのための新しい時空間プルーニングフレームワークを提案する。
我々の空間的プルーニング技術は、活動ニューロンと注意ヘッドの数を減らし、モデルの計算複雑性を効果的に減らします。
一方、時間的プルーニングは、異なるレイヤに必要なタイムステップ数を動的に調整することで、推論遅延を最小限に抑える。
これらの手法を他の圧縮手法と組み合わせることで、空間的刈り込み、時間的刈り込み、極端量子化、知識蒸留戦略を共同で探求するスパイキングLLMの分野における最初の成果を示す。
大規模GLUEベンチマークを用いて提案したSpkingBERTフレームワークの大規模実験により,計算演算と推論遅延の観点から,提案手法の有効性を実証した。
我々のアプローチは、リアルタイムで低消費電力の自然言語処理アプリケーションに魅力的なソリューションを提供し、Spike LLMはエッジデバイスや電力制約のある環境でのデプロイをより実用的なものにします。
関連論文リスト
- CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Optuna vs Code Llama: Are LLMs a New Paradigm for Hyperparameter Tuning? [42.362388367152256]
大規模言語モデル(LLM)は、LoRAを使用してパラメータ効率の良いCode Llamaを微調整するために使用される。
提案手法は,演算オーバーヘッドを著しく低減しつつ,ルート平均角誤差(RMSE)の点で競争力や優位性を実現する。
論文 参考訳(メタデータ) (2025-04-08T13:15:47Z) - LLS: Local Learning Rule for Deep Neural Networks Inspired by Neural Activity Synchronization [6.738409533239947]
従来のバックプロパゲーション(BP)を用いたディープニューラルネットワーク(DNN)のトレーニングは、計算複雑性とエネルギー消費の観点からの課題を提示している。
脳内で観察される神経活動同期現象(LLS)にインスパイアされた新しい局所学習規則を提案する。
LLSは、最大300倍の乗算累積(MAC)演算を減らし、BPのメモリ要求の半分で同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-24T18:24:24Z) - LitE-SNN: Designing Lightweight and Efficient Spiking Neural Network through Spatial-Temporal Compressive Network Search and Joint Optimization [48.41286573672824]
スパイキングニューラルネットワーク(SNN)は人間の脳の情報処理機構を模倣し、エネルギー効率が高い。
本稿では,空間圧縮と時間圧縮の両方を自動ネットワーク設計プロセスに組み込むLitE-SNNという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-26T05:23:11Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。