論文の概要: Sparse Expansion and Neuronal Disentanglement
- arxiv url: http://arxiv.org/abs/2405.15756v1
- Date: Fri, 24 May 2024 17:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 12:51:30.749815
- Title: Sparse Expansion and Neuronal Disentanglement
- Title(参考訳): スパース伸展と神経遠絡
- Authors: Shashata Sawmya, Linghao Kong, Ilia Markov, Dan Alistarh, Nir Shavit,
- Abstract要約: 本研究では, LLM をスパース専門家の混合体に拡張することにより, LLM の推論効率を向上する方法を示す。
Llama 2 70Bのようなモデルでは、スパース専門家の数が増加するにつれて、スパース拡張は他の全てのワンショットスペーシフィケーションアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 32.403833231587846
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We show how to improve the inference efficiency of an LLM by expanding it into a mixture of sparse experts, where each expert is a copy of the original weights, one-shot pruned for a specific cluster of input values. We call this approach $\textit{Sparse Expansion}$. We show that, for models such as Llama 2 70B, as we increase the number of sparse experts, Sparse Expansion outperforms all other one-shot sparsification approaches for the same inference FLOP budget per token, and that this gap grows as sparsity increases, leading to inference speedups. But why? To answer this, we provide strong evidence that the mixture of sparse experts is effectively $\textit{disentangling}$ the input-output relationship of every individual neuron across clusters of inputs. Specifically, sparse experts approximate the dense neuron output distribution with fewer weights by decomposing the distribution into a collection of simpler ones, each with a separate sparse dot product covering it. Interestingly, we show that the Wasserstein distance between a neuron's output distribution and a Gaussian distribution is an indicator of its entanglement level and contribution to the accuracy of the model. Every layer of an LLM has a fraction of highly entangled Wasserstein neurons, and model performance suffers more when these are sparsified as opposed to others.
- Abstract(参考訳): 本研究では, LLM をスパースの専門家の混合体に拡張することにより, LLM の推論効率を向上する方法を示す。
このアプローチを $\textit{Sparse Expansion}$ と呼ぶ。
Llama 2 70Bのようなモデルでは、スパース専門家の数が増加するにつれて、スパース拡張はトークン当たりのFLOP予算で他の全てのワンショットスペーシフィケーションアプローチよりも優れており、このギャップはスパシティの増加とともに増大し、推論速度が向上することを示している。
でも、なぜ?
これに対応するために、スパースの専門家の混合物が事実上$\textit{disentangling}$個々のニューロンの入力-出力関係であることを示す強力な証拠を提供する。
具体的には、スパースの専門家は、より単純なものの集合に分散を分解することで、より少ない重量で密度の高いニューロンの出力分布を近似した。
興味深いことに、ニューロンの出力分布とガウス分布の間のワッサーシュタイン距離は、その絡み合いの指標であり、モデルの精度に寄与する。
LLMのすべての層は、非常に絡み合ったワッサースタインニューロンのごく一部を持ち、モデル性能は、それらが他のものと対照的にスパース化されているときにより困難である。
関連論文リスト
- Biology-inspired joint distribution neurons based on Hierarchical Correlation Reconstruction allowing for multidirectional neural networks [0.49728186750345144]
HCRを用いた新しい人工ニューロン(階層的相関再構成)
ネットワークはまた、確率分布(例えば $rhoy,z|x)$ も伝播することができる。
また、テンソル分解によるdirect $(a_mathbfj)$ Estimationのような追加のトレーニングアプローチも可能である。
論文 参考訳(メタデータ) (2024-05-08T14:49:27Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Learning general Gaussian mixtures with efficient score matching [16.06356123715737]
我々は、$d$次元で$k$ガウシアンの混合を学習する問題を研究する。
我々は、下層の混合成分について分離を前提としない。
我々は、ターゲット混合物から$dmathrmpoly(k/varepsilon)$サンプルを抽出し、サンプル-ポリノミカル時間で実行し、サンプリング器を構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:30:36Z) - Semidefinite programming on population clustering: a global analysis [0.6472434306724609]
サブガウス分布の混合から引き出された小さいデータサンプルを$n$で分割する問題を考察する。
私たちは、個々のフィーチャが平均的な$gamma$が低い場合に興味を持ち、サンプルを正しく分割するためにできるだけ少数の機能を使用したいと思っています。
論文 参考訳(メタデータ) (2023-01-01T04:52:25Z) - On counterfactual inference with unobserved confounding [36.18241676876348]
独立だが不均一な単位を持つ観測的研究を前提として、各単位の反実分布を学習することが目的である。
我々は、すべての$n$サンプルをプールして、すべての$n$パラメータベクトルを共同で学習する凸目的を導入する。
対数的ソボレフ不等式を満たすためにコンパクトに支持された分布に対して十分な条件を導出する。
論文 参考訳(メタデータ) (2022-11-14T04:14:37Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Generative Semantic Hashing Enhanced via Boltzmann Machines [61.688380278649056]
既存の生成ハッシュ法は、主に後部分布の分解形式を仮定する。
本稿では,ボルツマンマシンの分布を検索後部として利用することを提案する。
ハッシュコード内の異なるビット間の相関関係を効果的にモデル化することにより、我々のモデルは大幅な性能向上を達成できることを示す。
論文 参考訳(メタデータ) (2020-06-16T01:23:39Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Robustly Learning any Clusterable Mixture of Gaussians [55.41573600814391]
本研究では,高次元ガウス混合系の対向ロバスト条件下での効率的な学習性について検討する。
理論的に最適に近い誤り証明である$tildeO(epsilon)$の情報を、$epsilon$-corrupted $k$-mixtureで学習するアルゴリズムを提供する。
我々の主な技術的貢献は、ガウス混合系からの新しい頑健な識別可能性証明クラスターであり、これは正方形の定度証明システムによって捉えることができる。
論文 参考訳(メタデータ) (2020-05-13T16:44:12Z) - Outlier-Robust Clustering of Non-Spherical Mixtures [5.863264019032882]
統計的に分離されたd-次元ガウスアン(k-GMM)の混合をクラスタリングするための最初のアウトリー・ローバストアルゴリズムを与える。
この結果は、$d$次元単位球面上の均一分布の任意のアフィン変換のクラスタリング混合に拡張される。
論文 参考訳(メタデータ) (2020-05-06T17:24:27Z) - Neural Bayes: A Generic Parameterization Method for Unsupervised
Representation Learning [175.34232468746245]
本稿ではニューラルベイズと呼ばれるパラメータ化手法を提案する。
これは一般に計算が難しい統計量の計算を可能にする。
このパラメータ化のための2つの独立したユースケースを示す。
論文 参考訳(メタデータ) (2020-02-20T22:28:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。