論文の概要: Wasserstein Distances, Neuronal Entanglement, and Sparsity
- arxiv url: http://arxiv.org/abs/2405.15756v4
- Date: Wed, 26 Feb 2025 17:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:54:20.017024
- Title: Wasserstein Distances, Neuronal Entanglement, and Sparsity
- Title(参考訳): ワッサースタイン距離, 神経絡み, 空間性
- Authors: Shashata Sawmya, Linghao Kong, Ilia Markov, Dan Alistarh, Nir Shavit,
- Abstract要約: 本研究では,特に重み空間下での非絡み合いが,パフォーマンスの理解にどのように役立つかを検討する。
LLMの各リニア層に、少数の高度に絡み合った「ワッサースタインニューロン」が存在することを示す。
我々のフレームワークは各層の入力を分離し、各ニューロンの出力がワーセルシュタイン距離の低いニューロンの混合によって計算される専門家の混合を生成する。
- 参考スコア(独自算出の注目度): 32.403833231587846
- License:
- Abstract: Disentangling polysemantic neurons is at the core of many current approaches to interpretability of large language models. Here we attempt to study how disentanglement can be used to understand performance, particularly under weight sparsity, a leading post-training optimization technique. We suggest a novel measure for estimating neuronal entanglement: the Wasserstein distance of a neuron's output distribution to a Gaussian. Moreover, we show the existence of a small number of highly entangled "Wasserstein Neurons" in each linear layer of an LLM, characterized by their highly non-Gaussian output distributions, their role in mapping similar inputs to dissimilar outputs, and their significant impact on model accuracy. To study these phenomena, we propose a new experimental framework for disentangling polysemantic neurons. Our framework separates each layer's inputs to create a mixture of experts where each neuron's output is computed by a mixture of neurons of lower Wasserstein distance, each better at maintaining accuracy when sparsified without retraining. We provide strong evidence that this is because the mixture of sparse experts is effectively disentangling the input-output relationship of individual neurons, in particular the difficult Wasserstein neurons.
- Abstract(参考訳): 遠方性多意味ニューロンは、大規模言語モデルの解釈可能性に対する多くの現在のアプローチの中核にある。
ここでは、特に重み空間下での学習後最適化手法において、非絡み合いがパフォーマンスの理解にどのように役立つかについて検討する。
本稿では,ニューロンからガウスへの出力分布のワッサースタイン距離を推定する新しい尺度を提案する。
さらに,LLMの各線形層には,その非ガウス出力分布,類似した入力を異種出力にマッピングする役割,モデル精度に有意な影響を及ぼすような,非常に絡み合った「ワッサースタインニューロン」が少数存在することを示す。
これらの現象を研究するため、我々は多節性ニューロンをアンタングリングするための新しい実験フレームワークを提案する。
我々のフレームワークは、各層の入力を分離し、各ニューロンの出力がワーサースタイン距離の低いニューロンの混合によって計算される専門家の混合物を作成する。
これは、スパースの専門家の混合が個々のニューロン、特に難しいワッサースタインニューロンの入出力関係を効果的に切り離しているためである、という強い証拠を提供する。
関連論文リスト
- Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Decorrelating neurons using persistence [29.25969187808722]
2つの正規化項は、クリッドの最小スパンニングツリーの重みから計算される。
ニューロン間の相関関係を最小化することで、正規化条件よりも低い精度が得られることを示す。
正規化の可微分性の証明を含むので、最初の効果的なトポロジカルな永続性に基づく正規化用語を開発することができる。
論文 参考訳(メタデータ) (2023-08-09T11:09:14Z) - The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。
ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。
本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文 参考訳(メタデータ) (2023-06-14T13:34:13Z) - Understanding Neural Coding on Latent Manifolds by Sharing Features and
Dividing Ensembles [3.625425081454343]
システム神経科学は、単一ニューロンのチューニング曲線と集団活動の分析を特徴とする2つの相補的な神経データ観に依存している。
これらの2つの視点は、潜伏変数とニューラルアクティビティの関係を制約するニューラル潜伏変数モデルにおいてエレガントに結合する。
ニューラルチューニング曲線にまたがる機能共有を提案し、性能を大幅に改善し、より良い最適化を実現する。
論文 参考訳(メタデータ) (2022-10-06T18:37:49Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Autonomous learning of nonlocal stochastic neuron dynamics [0.0]
神経力学は、外部に課されたまたは内部的に生成されたランダム励起/ノイズによって駆動され、しばしばランダムまたは通常の微分方程式の系によって記述される。
刺激とニューロンの様々な内部状態の間の相互情報のような情報理論量を計算するのに使うことができる。
本研究では, 局所的な非局所的大微分率閉包法と, スパース回帰に依拠して関連する特徴を学習するデータドディ閉包法という2つの手法を提案する。
論文 参考訳(メタデータ) (2020-11-22T06:47:18Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。