論文の概要: Sparse Expansion and Neuronal Disentanglement
- arxiv url: http://arxiv.org/abs/2405.15756v1
- Date: Fri, 24 May 2024 17:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 12:51:30.749815
- Title: Sparse Expansion and Neuronal Disentanglement
- Title(参考訳): スパース伸展と神経遠絡
- Authors: Shashata Sawmya, Linghao Kong, Ilia Markov, Dan Alistarh, Nir Shavit,
- Abstract要約: 本研究では, LLM をスパース専門家の混合体に拡張することにより, LLM の推論効率を向上する方法を示す。
Llama 2 70Bのようなモデルでは、スパース専門家の数が増加するにつれて、スパース拡張は他の全てのワンショットスペーシフィケーションアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 32.403833231587846
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We show how to improve the inference efficiency of an LLM by expanding it into a mixture of sparse experts, where each expert is a copy of the original weights, one-shot pruned for a specific cluster of input values. We call this approach $\textit{Sparse Expansion}$. We show that, for models such as Llama 2 70B, as we increase the number of sparse experts, Sparse Expansion outperforms all other one-shot sparsification approaches for the same inference FLOP budget per token, and that this gap grows as sparsity increases, leading to inference speedups. But why? To answer this, we provide strong evidence that the mixture of sparse experts is effectively $\textit{disentangling}$ the input-output relationship of every individual neuron across clusters of inputs. Specifically, sparse experts approximate the dense neuron output distribution with fewer weights by decomposing the distribution into a collection of simpler ones, each with a separate sparse dot product covering it. Interestingly, we show that the Wasserstein distance between a neuron's output distribution and a Gaussian distribution is an indicator of its entanglement level and contribution to the accuracy of the model. Every layer of an LLM has a fraction of highly entangled Wasserstein neurons, and model performance suffers more when these are sparsified as opposed to others.
- Abstract(参考訳): 本研究では, LLM をスパースの専門家の混合体に拡張することにより, LLM の推論効率を向上する方法を示す。
このアプローチを $\textit{Sparse Expansion}$ と呼ぶ。
Llama 2 70Bのようなモデルでは、スパース専門家の数が増加するにつれて、スパース拡張はトークン当たりのFLOP予算で他の全てのワンショットスペーシフィケーションアプローチよりも優れており、このギャップはスパシティの増加とともに増大し、推論速度が向上することを示している。
でも、なぜ?
これに対応するために、スパースの専門家の混合物が事実上$\textit{disentangling}$個々のニューロンの入力-出力関係であることを示す強力な証拠を提供する。
具体的には、スパースの専門家は、より単純なものの集合に分散を分解することで、より少ない重量で密度の高いニューロンの出力分布を近似した。
興味深いことに、ニューロンの出力分布とガウス分布の間のワッサーシュタイン距離は、その絡み合いの指標であり、モデルの精度に寄与する。
LLMのすべての層は、非常に絡み合ったワッサースタインニューロンのごく一部を持ち、モデル性能は、それらが他のものと対照的にスパース化されているときにより困難である。
関連論文リスト
- Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Decorrelating neurons using persistence [29.25969187808722]
2つの正規化項は、クリッドの最小スパンニングツリーの重みから計算される。
ニューロン間の相関関係を最小化することで、正規化条件よりも低い精度が得られることを示す。
正規化の可微分性の証明を含むので、最初の効果的なトポロジカルな永続性に基づく正規化用語を開発することができる。
論文 参考訳(メタデータ) (2023-08-09T11:09:14Z) - The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。
ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。
本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文 参考訳(メタデータ) (2023-06-14T13:34:13Z) - Understanding Neural Coding on Latent Manifolds by Sharing Features and
Dividing Ensembles [3.625425081454343]
システム神経科学は、単一ニューロンのチューニング曲線と集団活動の分析を特徴とする2つの相補的な神経データ観に依存している。
これらの2つの視点は、潜伏変数とニューラルアクティビティの関係を制約するニューラル潜伏変数モデルにおいてエレガントに結合する。
ニューラルチューニング曲線にまたがる機能共有を提案し、性能を大幅に改善し、より良い最適化を実現する。
論文 参考訳(メタデータ) (2022-10-06T18:37:49Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Autonomous learning of nonlocal stochastic neuron dynamics [0.0]
神経力学は、外部に課されたまたは内部的に生成されたランダム励起/ノイズによって駆動され、しばしばランダムまたは通常の微分方程式の系によって記述される。
刺激とニューロンの様々な内部状態の間の相互情報のような情報理論量を計算するのに使うことができる。
本研究では, 局所的な非局所的大微分率閉包法と, スパース回帰に依拠して関連する特徴を学習するデータドディ閉包法という2つの手法を提案する。
論文 参考訳(メタデータ) (2020-11-22T06:47:18Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。