論文の概要: Expand Neurons, Not Parameters
- arxiv url: http://arxiv.org/abs/2510.04500v1
- Date: Mon, 06 Oct 2025 05:26:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.691083
- Title: Expand Neurons, Not Parameters
- Title(参考訳): パラメータではなく、拡大ニューロン
- Authors: Linghao Kong, Inimai Subramanian, Yonadav Shavit, Micah Adler, Dan Alistarh, Nir Shavit,
- Abstract要約: この研究は、ゼロでないパラメータの数を増やすことなく、ネットワーク内のニューロンの数を増やすことで、パフォーマンスが向上することを示す。
固定拡大(FPE: Fixed Expansion)は、ニューロンを複数の子に置き換え、親の体重を不随意に分割する機能である。
シンボリックなタスク、特にコードの問題では、節順のFPEは多意味性のメトリクスを体系的に減らし、より高いタスク精度をもたらす。
- 参考スコア(独自算出の注目度): 32.72824450083627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work demonstrates how increasing the number of neurons in a network without increasing its number of non-zero parameters improves performance. We show that this gain corresponds with a decrease in interference between multiple features that would otherwise share the same neurons. To reduce such entanglement at a fixed non-zero parameter count, we introduce Fixed Parameter Expansion (FPE): replace a neuron with multiple children and partition the parent's weights disjointly across them, so that each child inherits a non-overlapping subset of connections. On symbolic tasks, specifically Boolean code problems, clause-aligned FPE systematically reduces polysemanticity metrics and yields higher task accuracy. Notably, random splits of neuron weights approximate these gains, indicating that reduced collisions, not precise assignment, are a primary driver. Consistent with the superposition hypothesis, the benefits of FPE grow with increasing interference: when polysemantic load is high, accuracy improvements are the largest. Transferring these insights to real models (classifiers over CLIP embeddings and deeper multilayer networks) we find that widening networks while maintaining a constant non-zero parameter count consistently increases accuracy. These results identify an interpretability-grounded mechanism to leverage width against superposition, improving performance without increasing the number of non-zero parameters. Such a direction is well matched to modern accelerators, where memory movement of non-zero parameters, rather than raw compute, is the dominant bottleneck.
- Abstract(参考訳): この研究は、ゼロでないパラメータの数を増やすことなく、ネットワーク内のニューロンの数を増やすことで、パフォーマンスが向上することを示す。
この増加は、同じ神経細胞を共有する複数の特徴間の干渉の減少に対応している。
固定された非ゼロパラメータ数におけるそのような絡み合いを低減するために、固定パラメータ拡張(FPE)を導入し、ニューロンを複数の子に置換し、親の重みを互いに交互に分割し、各子に重複しない接続のサブセットを継承する。
シンボリックなタスク、特にブールコードの問題では、節順のFPEは多意味性のメトリクスを体系的に減らし、より高いタスク精度をもたらす。
特に、ニューロンの重みのランダムな分割は、これらの利得を近似し、正確な割り当てではなく、衝突の縮小が主要なドライバーであることを示唆している。
重畳仮説と一致して、FPEの利点は干渉の増加とともに増大する。
これらの知見を実モデル(CLIP埋め込みや深い多層ネットワーク上の分類器)に転送すると、定数な非ゼロパラメータ数を維持しながらネットワークを広げることが、常に精度を高めることが分かる。
これらの結果から,非ゼロパラメータの数を増やすことなく,重ね合わせに対して幅を活用できる解釈可能性グラウンドド機構が同定された。
このような方向は、生の計算ではなく、ゼロでないパラメータのメモリ移動が支配的なボトルネックとなる現代の加速器とよく一致している。
関連論文リスト
- Function Space Diversity for Uncertainty Prediction via Repulsive Last-Layer Ensembles [11.551956337460982]
粒子最適化による関数空間の推測と不確実性推定を改善するための実用的な修正について論じる。
本研究では,粒子予測を多種多様に強制する入力サンプルがモデル性能に有害であることを示す。
トレーニングデータ自体の多様性は不適合につながる可能性があるが、ラベル削除データの拡張や、ラベル付けされていないアウト・オブ・ディストリビューションデータを使用することは、予測の多様性と不確実性の推定を改善することができる。
論文 参考訳(メタデータ) (2024-12-20T10:24:08Z) - Scalable Neural Network Kernels [22.299704296356836]
我々は、通常のフィードフォワード層(FFL)を近似できるスケーラブルニューラルネットワークカーネル(SNNK)を導入する。
また、深層ニューラルネットワークアーキテクチャのコンパクト化にSNNKを適用するニューラルネットワークバンドルプロセスについても紹介する。
我々のメカニズムは、競争精度を維持しながら、トレーニング可能なパラメータの最大5倍の削減を可能にする。
論文 参考訳(メタデータ) (2023-10-20T02:12:56Z) - Nonparametric Classification on Low Dimensional Manifolds using Overparameterized Convolutional Residual Networks [78.11734286268455]
非パラメトリック分類の観点から重量減衰を訓練したConvResNeXtsの性能について検討した。
我々の分析は、ConvResNeXtsにおいて無限に多くのビルディングブロックを許容し、重み減衰がこれらのブロックに空間性を暗黙的に強制することを示す。
論文 参考訳(メタデータ) (2023-07-04T11:08:03Z) - Compressing Neural Networks Using Tensor Networks with Exponentially Fewer Variational Parameters [4.373746415510521]
機械学習タスクに挑戦するために設計されたニューラルネットワーク(NN)は、一般的に、大きな変動パラメータを含む非常に非線形なマッピングである。
本稿では, NNの変動パラメータをRautomatically differentiable tensor Network (ADTN) に符号化することにより, NNの変動パラメータを著しく低減する汎用圧縮手法を提案する。
本研究は, NNの変動パラメータを表現するために, 非常に効率的な数学的構造として深部TNが提案され, 一般的に用いられる行列や多方向アレイよりも優れた圧縮性を示す。
論文 参考訳(メタデータ) (2023-05-10T11:24:27Z) - Receding Neuron Importances for Structured Pruning [11.375436522599133]
構造化プルーニングは、重要でないニューロンを特定して除去することで、ネットワークを効率的に圧縮する。
境界スケーリングパラメータを持つ単純なBatchNorm変動を導入し、低重要性のニューロンのみを抑制する新しい正規化項を設計する。
我々は、この方法でトレーニングされたニューラルネットワークを、より大きく、より少ない劣化で刈り取ることができることを示した。
論文 参考訳(メタデータ) (2022-04-13T14:08:27Z) - To Boost or not to Boost: On the Limits of Boosted Neural Networks [67.67776094785363]
ブースティングは分類器のアンサンブルを学ぶ方法である。
ブースティングは決定木に非常に有効であることが示されているが、ニューラルネットワークへの影響は広く研究されていない。
単一のニューラルネットワークは通常、同じ数のパラメータを持つ小さなニューラルネットワークの強化されたアンサンブルよりもよく一般化される。
論文 参考訳(メタデータ) (2021-07-28T19:10:03Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z) - On the infinite width limit of neural networks with a standard
parameterization [52.07828272324366]
幅が無限大になるにつれて、これらの特性を全て保存する標準パラメータ化の補間の改善を提案する。
実験により,結果のカーネルはNTKパラメータ化の結果とよく似た精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-01-21T01:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。