Fugu-MT 論文翻訳(概要): Achieving Sparse Activation in Small Language Models

論文の概要: Achieving Sparse Activation in Small Language Models

arxiv url: http://arxiv.org/abs/2406.06562v1
Date: Mon, 3 Jun 2024 03:21:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 00:11:14.446791
Title: Achieving Sparse Activation in Small Language Models
Title（参考訳）: 小言語モデルにおけるスパースアクティベーションの実現
Authors: Jifeng Song, Kai Huang, Xiangyu Yin, Boyuan Yang, Wei Gao,
Abstract要約: スパースアクティベーション(sparse activation)は、再訓練や適応をすることなく、LLM(Large Language Models)の計算コストを削減できる手法である。本稿では,小言語モデル(SLM)におけるスパースアクティベーションの実現を目指す。まず, ニューロンの出力大小をベースとしたLLMのスパース活性化スキームはSLMには適用できないことを示し, その属性スコアに基づいてニューロンを活性化することがよりよい選択肢であることを示した。
参考スコア（独自算出の注目度）: 9.05326883263473
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Sparse activation, which selectively activates only an input-dependent set of neurons in inference, is a useful technique to reduce the computing cost of Large Language Models (LLMs) without retraining or adaptation efforts. However, whether it can be applied to the recently emerging Small Language Models (SLMs) remains questionable, because SLMs are generally less over-parameterized than LLMs. In this paper, we aim to achieve sparse activation in SLMs. We first show that the existing sparse activation schemes in LLMs that build on neurons' output magnitudes cannot be applied to SLMs, and activating neurons based on their attribution scores is a better alternative. Further, we demonstrated and quantified the large errors of existing attribution metrics when being used for sparse activation, due to the interdependency among attribution scores of neurons across different layers. Based on these observations, we proposed a new attribution metric that can provably correct such errors and achieve precise sparse activation. Experiments over multiple popular SLMs and datasets show that our approach can achieve 80% sparsification ratio with <5% model accuracy loss, comparable to the sparse activation achieved in LLMs. The source code is available at: https://github.com/pittisl/Sparse-Activation.
Abstract（参考訳）: 入力依存ニューロンのみを選択的に活性化するスパースアクティベーションは、再訓練や適応をすることなく、LLM(Large Language Models)の計算コストを削減するのに有用である。しかし、最近登場したSLM(Small Language Models)に適用できるかどうかは疑問視されている。本稿では,SLMにおけるスパースアクティベーションの実現を目指す。まず, ニューロンの出力大小をベースとしたLLMのスパース活性化スキームはSLMには適用できないことを示し, その属性スコアに基づいてニューロンを活性化することがよりよい選択肢であることを示した。さらに,異なる層にまたがるニューロンの属性スコア間の相互依存性から,スパースアクティベーション時に既存の属性メトリクスの大規模な誤差を実証し,定量化した。これらの観測に基づいて,これらの誤りを確実に修正し,正確なスパースアクティベーションを実現するための新しい属性指標を提案した。複数のSLMおよびデータセットに対する実験結果から,本手法はモデルの精度損失を5%に抑えながら80%のスペース化比を達成できることが示唆された。ソースコードは、https://github.com/pittisl/Sparse-Activation.comで入手できる。

関連論文リスト

Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference [44.538579135121466]
WINA(Weight Informed Neuron Activation)は、新しい、シンプルで、トレーニング不要なスパースアクティベーションフレームワークである。 WINAは,従来の手法よりも厳密な理論的保証を持つ最適近似誤差境界が得られることを示す。また、最先端の手法(例えばTEAL)を同等の間隔で平均性能で2.94%まで上回っている。
論文参考訳（メタデータ） (2025-05-26T02:37:32Z)
Scalable LLM Math Reasoning Acceleration with Low-rank Distillation [57.922185576872444]
資源効率の高い蒸留法を提案し, 効率的な推論手法の展開から損失能力を回収する。もともとの重みは未成熟で、パラメータの約1%、合成トレーニングサンプルは20Kに過ぎなかった。
論文参考訳（メタデータ） (2025-05-08T17:51:24Z)
R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。 10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-28T03:30:32Z)
Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文参考訳（メタデータ） (2024-12-13T02:26:54Z)
Can a Large Language Model Learn Matrix Functions In Context? [3.7478782183628634]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を通じて複雑なタスクを解く能力を実証した。本稿では,LLMの非線形数値計算能力について検討し,特異値分解関数に着目した。
論文参考訳（メタデータ） (2024-11-24T00:33:43Z)
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文参考訳（メタデータ） (2024-11-01T20:44:59Z)
Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification? [2.1861408994125253]
大規模言語モデル(LLM)は、最近、時間的推論タスクで有望なパフォーマンスを示した。最近の研究は、閉ソースモデルのみの時間的関係を検出するためにLLMの性能を検証している。
論文参考訳（メタデータ） (2024-10-14T13:10:45Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文参考訳（メタデータ） (2024-03-13T17:58:57Z)
ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文参考訳（メタデータ） (2024-02-06T08:45:51Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
Transcormer: Transformer for Sentence Scoring with Sliding Language Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文参考訳（メタデータ） (2022-05-25T18:00:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。