Fugu-MT 論文翻訳(概要): Training-Free Activation Sparsity in Large Language Models

論文の概要: Training-Free Activation Sparsity in Large Language Models

arxiv url: http://arxiv.org/abs/2408.14690v1
Date: Mon, 26 Aug 2024 23:30:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 15:24:16.429971
Title: Training-Free Activation Sparsity in Large Language Models
Title（参考訳）: 大規模言語モデルにおける学習自由なアクティベーション空間
Authors: James Liu, Pragaash Ponnusamy, Tianle Cai, Han Guo, Yoon Kim, Ben Athiwaratkun,
Abstract要約: アクティベーションのスパーシリティは、大きな言語モデルで実用的な推論スピードアップを可能にする。既存の手法は普及を妨げる限界に直面している。本稿では,モデル全体の隠れ状態に対して,等級に基づくアクティベーション間隔を適用したトレーニング不要なTEALについて述べる。
参考スコア（独自算出の注目度）: 32.37595108771431
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Activation sparsity can enable practical inference speedups in large language models (LLMs) by reducing the compute and memory-movement required for matrix multiplications during the forward pass. However, existing methods face limitations that inhibit widespread adoption. Some approaches are tailored towards older models with ReLU-based sparsity, while others require extensive continued pre-training on up to hundreds of billions of tokens. This paper describes TEAL, a simple training-free method that applies magnitude-based activation sparsity to hidden states throughout the entire model. TEAL achieves 40-50% model-wide sparsity with minimal performance degradation across Llama-2, Llama-3, and Mistral families, with sizes varying from 7B to 70B. We improve existing sparse kernels and demonstrate wall-clock decoding speed-ups of up to 1.53$\times$ and 1.8$\times$ at 40% and 50% model-wide sparsity. TEAL is compatible with weight quantization, enabling further efficiency gains.
Abstract（参考訳）: アクティベーションスパシティは、前方通過時の行列乗算に必要な計算量とメモリ移動量を削減し、大規模言語モデル(LLM)における実用的な推論スピードアップを可能にする。しかし、既存の手法は広く普及を阻害する限界に直面している。いくつかのアプローチは、ReLUベースのスパーシリティを持つ古いモデル向けに調整されているが、数千億のトークンに対して、広範な事前トレーニングを必要とするものもある。本稿では,TEALについて述べる。TEALは,モデル全体にわたって,大域的なアクティベーション間隔を隠蔽状態に適用する,単純なトレーニング不要な手法である。 TEALは、Llama-2、Llama-3、Mistralファミリ間の性能劣化を最小限に抑えながら、40-50%のモデル幅を実現し、サイズは7Bから70Bまで様々である。既存のスパースカーネルを改善し、最大1.53$\times$と1.8$\times$のウォールクロック復号速度を40%および50%のモデル幅で示す。 TEALは重量量子化と互換性があり、さらなる効率向上を可能にする。

関連論文リスト

BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity [66.94629945519125]
我々は、新しいMoEアーキテクチャであるBlockFFNと、その効率的なトレーニングとデプロイメント技術を紹介します。具体的には、ReLUアクティベーションとRMSNormを統合したルータを、微分可能かつ柔軟なルーティングに使用します。次に、トークンレベルのスペーサ(TLS)とチャンクレベルのスペーサ(CLS)の両方を促進するために、CLS対応のトレーニング目標を設計し、BlockFFNをより加速しやすいものにした。
論文参考訳（メタデータ） (2025-07-11T17:28:56Z)
La RoSA: Enhancing LLM Efficiency via Layerwise Rotated Sparse Activation [17.75193235312511]
活性化間隔は、LLM(Large Language Model)推論の前方通過時の計算オーバーヘッドとメモリ転送を減少させる。既存の方法は、実世界の採用を妨げる時間を要する回復トレーニングを必要とするか、経験的マグニチュードベースのプルーニングに依存するか、制限に直面します。本稿では,LLM効率向上を目的とした新しい活性化スペーシフィケーション手法であるLaRoSAについて述べる。
論文参考訳（メタデータ） (2025-07-02T02:36:03Z)
WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference [44.538579135121466]
WINA(Weight Informed Neuron Activation)は、新しい、シンプルで、トレーニング不要なスパースアクティベーションフレームワークである。 WINAは,従来の手法よりも厳密な理論的保証を持つ最適近似誤差境界が得られることを示す。また、最先端の手法(例えばTEAL)を同等の間隔で平均性能で2.94%まで上回っている。
論文参考訳（メタデータ） (2025-05-26T02:37:32Z)
R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。 10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-28T03:30:32Z)
Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文参考訳（メタデータ） (2025-02-20T17:51:10Z)
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。 6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文参考訳（メタデータ） (2025-02-16T01:05:16Z)
Memory Is Not the Bottleneck: Cost-Efficient Continual Learning via Weight Space Consolidation [55.77835198580209]
連続学習(CL)は、メモリが主要なボトルネックであると仮定して、メモリ使用量の最小化を伝統的に強調してきた。本稿では, CLを十分なメモリでより現実的な環境下で再検討し, システムが過去のデータの代表的部分を保持できることを示す。この体制下では、忘れることを減らすことによって安定性が向上するが、モデルが以前のタスクに偏り、新しいタスクに適応するのに苦労すると、可塑性は低下する。
論文参考訳（メタデータ） (2025-02-11T05:40:52Z)
Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
我々は、高密度事前学習モデルの関数情報を利用して、アクティベーションのアライメントw.r.tを最大化するスパースモデルを得る。我々は,アクティベーション間のニューロンアライメントを最大化するために,ブロックワイドと行ワイドの間隔比を変更するエンフェップアップアルゴリズムであるtextscNeuroAlを提案する。提案手法は,4つの異なるLLMファミリーと3つの異なる空間比で検証し,最新の最先端技術よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2024-11-11T15:30:16Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。 ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters [20.093224415258174]
活性化間隔は活性化関数によって決定されるが、一般的に使用されるSwiGLUやGeGLUのような活性化間隔は限られている。高品質なトレーニングデータ混合比とともに, LLMの活性化間隔を改善するために設計された新しいdReLU関数を提案する。携帯電話では、TurboSparse-Mixtral-47Bが毎秒11トークンの推論速度を実現しています。
論文参考訳（メタデータ） (2024-06-10T01:21:59Z)
Dual sparse training framework: inducing activation map sparsity via Transformed $\ell1$ regularization [2.631955426232593]
本稿では,Transformed $ell1$ regularizationに基づいて,アクティベーションマップの間隔を推定する手法を提案する。以前の方法と比較すると、transformed $ell1$ はより高い空間性を実現し、異なるネットワーク構造に適応できる。デュアルスパーストレーニングフレームワークは、計算負荷を大幅に削減し、実行時に必要なストレージを削減できる可能性がある。
論文参考訳（メタデータ） (2024-05-30T03:11:21Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文参考訳（メタデータ） (2024-02-21T03:58:49Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。 CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文参考訳（メタデータ） (2023-11-23T16:49:06Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
AUTOSPARSE: Towards Automated Sparse Training of Deep Neural Networks [2.6742343015805083]
本稿では,ニューラルネットワーク内に存在する空間の均一分布を探索するグラディエント・アナリング(GA)を提案する。 GAは、余剰を誘導する正規化を必要とせずに、余剰と正確性の間のエレガントなトレードオフを提供する。 GAと最新の学習可能なプルーニング手法を統合し、AutoSparseと呼ばれる自動スパーストレーニングアルゴリズムを作成する。
論文参考訳（メタデータ） (2023-04-14T06:19:07Z)
Reducing Activation Recomputation in Large Transformer Models [17.810669621463962]
本稿では,アクティベーション再計算を減らし,大規模変圧器モデルのトレーニングを大幅に高速化する方法を示す。シーケンス並列性と選択的アクティベーション再計算の2つの新しい手法を提案する。本手法は,アクティベーションメモリを5倍に削減し,アクティベーション再計算のオーバーヘッドを90%以上削減する。
論文参考訳（メタデータ） (2022-05-10T22:40:17Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。