論文の概要: Learn To be Efficient: Build Structured Sparsity in Large Language
Models
- arxiv url: http://arxiv.org/abs/2402.06126v2
- Date: Tue, 13 Feb 2024 16:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 12:04:07.042868
- Title: Learn To be Efficient: Build Structured Sparsity in Large Language
Models
- Title(参考訳): 効率的になるために学ぶ - 大規模言語モデルにおける構造化スパーシティの構築
- Authors: Haizhong Zheng, Xiaoyan Bai, Beidi Chen, Fan Lai, Atul Prakash
- Abstract要約: 大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
本稿では,Learning-To-Efficient (LTE) アルゴリズムを提案する。
実験の結果、LTEはスパーシリティとタスクパフォーマンスのトレードオフを良くすることがわかった。
- 参考スコア(独自算出の注目度): 15.746754531419917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success with their
billion-level parameters, yet they incur high inference overheads. The
emergence of activation sparsity in LLMs provides a natural approach to reduce
this cost by involving only parts of the parameters for inference. Existing
methods only focus on utilizing this naturally formed activation sparsity,
overlooking the potential for further amplifying this inherent sparsity. In
this paper, we hypothesize that LLMs can learn to be efficient by achieving
more structured activation sparsity. To achieve this, we introduce a novel
algorithm, Learn-To-be-Efficient (LTE), designed to train efficiency-aware LLMs
to learn to activate fewer neurons and achieve a better trade-off between
sparsity and performance. Furthermore, unlike SOTA MoEfication methods, which
mainly focus on ReLU-based models, LTE can also be applied to LLMs like GPT and
LLaMA with soft activation functions. We evaluate LTE on four models and eleven
datasets. The experiments show that LTE achieves a better trade-off between
sparsity and task performance. For instance, LTE with LLaMA provides a
1.83x-2.59x FLOPs speed-up on language generation tasks, outperforming the
state-of-the-art methods.
- Abstract(参考訳): 大規模言語モデル(llm)は10億レベルのパラメータで驚くべき成功を収めているが、高い推論オーバーヘッドを負っている。
LLMにおける活性化空間の出現は、推論のためのパラメータの一部だけを含むことによって、このコストを削減する自然なアプローチを提供する。
既存の方法は、この自然に形成された活性化空間の利用のみに焦点を合わせ、この固有空間をさらに増幅する可能性を見越している。
本稿では、より構造化された活性化空間を実現することにより、LCMが効率良く学習できるという仮説を立てる。
そこで本研究では,効率を意識したllmにニューロンの活性化を訓練し,スパース性と性能のトレードオフを改善するための新しいアルゴリズムであるlearn-to-be- efficiency (lte)を提案する。
さらに、主にReLUモデルに焦点を当てたSOTA MoEfication法とは異なり、LTEは、ソフトアクティベーション機能を備えたGPTやLLaMAといったLCMにも適用することができる。
LTEを4つのモデルと11のデータセットで評価する。
実験の結果、LTEはポーシャリティとタスクパフォーマンスのトレードオフを良くすることがわかった。
例えば、LLaMAを使ったLTEは言語生成タスクで1.83x-2.59xのFLOPを高速化し、最先端の手法よりも優れている。
関連論文リスト
- ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity
within Large Language Models [76.81756526165533]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
ほとんどの大きな言語モデル(LLM)は、固有のアクティベーション間隔のないアクティベーション機能を採用している。
本稿では, モデル性能を低下させることなく, LLMを高機能化するために, プロスパース (ProSparse) と呼ばれる効果的なスペーシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。