論文の概要: Wasserstein Distances, Neuronal Entanglement, and Sparsity
- arxiv url: http://arxiv.org/abs/2405.15756v3
- Date: Mon, 17 Feb 2025 01:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:05:48.254475
- Title: Wasserstein Distances, Neuronal Entanglement, and Sparsity
- Title(参考訳): ワッサースタイン距離, 神経絡み, 空間性
- Authors: Shashata Sawmya, Linghao Kong, Ilia Markov, Dan Alistarh, Nir Shavit,
- Abstract要約: 本研究では,特に重み空間下での非絡み合いが,パフォーマンスの理解にどのように役立つかを検討する。
LLMの各リニア層に、少数の高度に絡み合った「ワッサースタインニューロン」が存在することを示す。
我々のフレームワークは各層の入力を分離し、各ニューロンの出力がワーセルシュタイン距離の低いニューロンの混合によって計算される専門家の混合を生成する。
- 参考スコア(独自算出の注目度): 32.403833231587846
- License:
- Abstract: Disentangling polysemantic neurons is at the core of many current approaches to interpretability of large language models. Here we attempt to study how disentanglement can be used to understand performance, particularly under weight sparsity, a leading post-training optimization technique. We suggest a novel measure for estimating neuronal entanglement: the Wasserstein distance of a neuron's output distribution to a Gaussian. Moreover, we show the existence of a small number of highly entangled "Wasserstein Neurons" in each linear layer of an LLM, characterized by their highly non-Gaussian output distributions, their role in mapping similar inputs to dissimilar outputs, and their significant impact on model accuracy. To study these phenomena, we propose a new experimental framework for disentangling polysemantic neurons. Our framework separates each layer's inputs to create a mixture of experts where each neuron's output is computed by a mixture of neurons of lower Wasserstein distance, each better at maintaining accuracy when sparsified without retraining. We provide strong evidence that this is because the mixture of sparse experts is effectively disentangling the input-output relationship of individual neurons, in particular the difficult Wasserstein neurons.
- Abstract(参考訳): 遠方性多意味ニューロンは、大規模言語モデルの解釈可能性に対する多くの現在のアプローチの中核にある。
ここでは、特に重み空間下での学習後最適化手法において、非絡み合いがパフォーマンスの理解にどのように役立つかについて検討する。
本稿では,ニューロンからガウスへの出力分布のワッサースタイン距離を推定する新しい尺度を提案する。
さらに,LLMの各線形層には,その非ガウス出力分布,類似した入力を異種出力にマッピングする役割,モデル精度に有意な影響を及ぼすような,非常に絡み合った「ワッサースタインニューロン」が少数存在することを示す。
これらの現象を研究するため、我々は多節性ニューロンをアンタングリングするための新しい実験フレームワークを提案する。
我々のフレームワークは、各層の入力を分離し、各ニューロンの出力がワーサースタイン距離の低いニューロンの混合によって計算される専門家の混合物を作成する。
これは、スパースの専門家の混合が個々のニューロン、特に難しいワッサースタインニューロンの入出力関係を効果的に切り離しているためである、という強い証拠を提供する。
関連論文リスト
- SymmetricDiffusers: Learning Discrete Diffusion on Finite Symmetric Groups [14.925722398371498]
本稿では,S_n$以上の複雑な分布を学習するタスクを単純化する離散拡散モデルを提案する。
我々のモデルは、4桁のMNIST画像のソートを含む課題の解決において、最先端または同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-03T19:37:40Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Learning general Gaussian mixtures with efficient score matching [16.06356123715737]
我々は、$d$次元で$k$ガウシアンの混合を学習する問題を研究する。
我々は、下層の混合成分について分離を前提としない。
我々は、ターゲット混合物から$dmathrmpoly(k/varepsilon)$サンプルを抽出し、サンプル-ポリノミカル時間で実行し、サンプリング器を構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:30:36Z) - Semidefinite programming on population clustering: a global analysis [0.6472434306724609]
サブガウス分布の混合から引き出された小さいデータサンプルを$n$で分割する問題を考察する。
私たちは、個々のフィーチャが平均的な$gamma$が低い場合に興味を持ち、サンプルを正しく分割するためにできるだけ少数の機能を使用したいと思っています。
論文 参考訳(メタデータ) (2023-01-01T04:52:25Z) - On counterfactual inference with unobserved confounding [36.18241676876348]
独立だが不均一な単位を持つ観測的研究を前提として、各単位の反実分布を学習することが目的である。
我々は、すべての$n$サンプルをプールして、すべての$n$パラメータベクトルを共同で学習する凸目的を導入する。
対数的ソボレフ不等式を満たすためにコンパクトに支持された分布に対して十分な条件を導出する。
論文 参考訳(メタデータ) (2022-11-14T04:14:37Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Generative Semantic Hashing Enhanced via Boltzmann Machines [61.688380278649056]
既存の生成ハッシュ法は、主に後部分布の分解形式を仮定する。
本稿では,ボルツマンマシンの分布を検索後部として利用することを提案する。
ハッシュコード内の異なるビット間の相関関係を効果的にモデル化することにより、我々のモデルは大幅な性能向上を達成できることを示す。
論文 参考訳(メタデータ) (2020-06-16T01:23:39Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Robustly Learning any Clusterable Mixture of Gaussians [55.41573600814391]
本研究では,高次元ガウス混合系の対向ロバスト条件下での効率的な学習性について検討する。
理論的に最適に近い誤り証明である$tildeO(epsilon)$の情報を、$epsilon$-corrupted $k$-mixtureで学習するアルゴリズムを提供する。
我々の主な技術的貢献は、ガウス混合系からの新しい頑健な識別可能性証明クラスターであり、これは正方形の定度証明システムによって捉えることができる。
論文 参考訳(メタデータ) (2020-05-13T16:44:12Z) - Outlier-Robust Clustering of Non-Spherical Mixtures [5.863264019032882]
統計的に分離されたd-次元ガウスアン(k-GMM)の混合をクラスタリングするための最初のアウトリー・ローバストアルゴリズムを与える。
この結果は、$d$次元単位球面上の均一分布の任意のアフィン変換のクラスタリング混合に拡張される。
論文 参考訳(メタデータ) (2020-05-06T17:24:27Z) - Neural Bayes: A Generic Parameterization Method for Unsupervised
Representation Learning [175.34232468746245]
本稿ではニューラルベイズと呼ばれるパラメータ化手法を提案する。
これは一般に計算が難しい統計量の計算を可能にする。
このパラメータ化のための2つの独立したユースケースを示す。
論文 参考訳(メタデータ) (2020-02-20T22:28:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。