論文の概要: Achieving Sparse Activation in Small Language Models
- arxiv url: http://arxiv.org/abs/2406.06562v1
- Date: Mon, 3 Jun 2024 03:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 00:11:14.446791
- Title: Achieving Sparse Activation in Small Language Models
- Title(参考訳): 小言語モデルにおけるスパースアクティベーションの実現
- Authors: Jifeng Song, Kai Huang, Xiangyu Yin, Boyuan Yang, Wei Gao,
- Abstract要約: スパースアクティベーション(sparse activation)は、再訓練や適応をすることなく、LLM(Large Language Models)の計算コストを削減できる手法である。
本稿では,小言語モデル(SLM)におけるスパースアクティベーションの実現を目指す。
まず, ニューロンの出力大小をベースとしたLLMのスパース活性化スキームはSLMには適用できないことを示し, その属性スコアに基づいてニューロンを活性化することがよりよい選択肢であることを示した。
- 参考スコア(独自算出の注目度): 9.05326883263473
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparse activation, which selectively activates only an input-dependent set of neurons in inference, is a useful technique to reduce the computing cost of Large Language Models (LLMs) without retraining or adaptation efforts. However, whether it can be applied to the recently emerging Small Language Models (SLMs) remains questionable, because SLMs are generally less over-parameterized than LLMs. In this paper, we aim to achieve sparse activation in SLMs. We first show that the existing sparse activation schemes in LLMs that build on neurons' output magnitudes cannot be applied to SLMs, and activating neurons based on their attribution scores is a better alternative. Further, we demonstrated and quantified the large errors of existing attribution metrics when being used for sparse activation, due to the interdependency among attribution scores of neurons across different layers. Based on these observations, we proposed a new attribution metric that can provably correct such errors and achieve precise sparse activation. Experiments over multiple popular SLMs and datasets show that our approach can achieve 80% sparsification ratio with <5% model accuracy loss, comparable to the sparse activation achieved in LLMs. The source code is available at: https://github.com/pittisl/Sparse-Activation.
- Abstract(参考訳): 入力依存ニューロンのみを選択的に活性化するスパースアクティベーションは、再訓練や適応をすることなく、LLM(Large Language Models)の計算コストを削減するのに有用である。
しかし、最近登場したSLM(Small Language Models)に適用できるかどうかは疑問視されている。
本稿では,SLMにおけるスパースアクティベーションの実現を目指す。
まず, ニューロンの出力大小をベースとしたLLMのスパース活性化スキームはSLMには適用できないことを示し, その属性スコアに基づいてニューロンを活性化することがよりよい選択肢であることを示した。
さらに,異なる層にまたがるニューロンの属性スコア間の相互依存性から,スパースアクティベーション時に既存の属性メトリクスの大規模な誤差を実証し,定量化した。
これらの観測に基づいて,これらの誤りを確実に修正し,正確なスパースアクティベーションを実現するための新しい属性指標を提案した。
複数のSLMおよびデータセットに対する実験結果から,本手法はモデルの精度損失を5%に抑えながら80%のスペース化比を達成できることが示唆された。
ソースコードは、https://github.com/pittisl/Sparse-Activation.comで入手できる。
関連論文リスト
- Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。
これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。
本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。
学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文 参考訳(メタデータ) (2024-03-13T17:58:57Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Transcormer: Transformer for Sentence Scoring with Sliding Language
Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。
文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文 参考訳(メタデータ) (2022-05-25T18:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。