論文の概要: Polysemanticity and Capacity in Neural Networks
- arxiv url: http://arxiv.org/abs/2210.01892v1
- Date: Tue, 4 Oct 2022 20:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:31:58.607223
- Title: Polysemanticity and Capacity in Neural Networks
- Title(参考訳): ニューラルネットワークの多次元性とキャパシティ
- Authors: Adam Scherlis, Kshitij Sachan, Adam S. Jermyn, Joe Benton, Buck
Shlegeris
- Abstract要約: ニューラルネットワークの個々のニューロンは、しばしば無関係な特徴の混合を表す。
この現象は多意味性(polysemanticity)と呼ばれ、ニューラルネットワークの解釈を難しくする。
- 参考スコア(独自算出の注目度): 1.4174475093445233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Individual neurons in neural networks often represent a mixture of unrelated
features. This phenomenon, called polysemanticity, can make interpreting neural
networks more difficult and so we aim to understand its causes. We propose
doing so through the lens of feature \emph{capacity}, which is the fractional
dimension each feature consumes in the embedding space. We show that in a toy
model the optimal capacity allocation tends to monosemantically represent the
most important features, polysemantically represent less important features (in
proportion to their impact on the loss), and entirely ignore the least
important features. Polysemanticity is more prevalent when the inputs have
higher kurtosis or sparsity and more prevalent in some architectures than
others. Given an optimal allocation of capacity, we go on to study the geometry
of the embedding space. We find a block-semi-orthogonal structure, with
differing block sizes in different models, highlighting the impact of model
architecture on the interpretability of its neurons.
- Abstract(参考訳): ニューラルネットワークの個々のニューロンは、しばしば無関係な特徴の混合を表す。
この現象は多意味性(polysemanticity)と呼ばれ、ニューラルネットワークの解釈をより困難にするので、その原因を理解することを目指している。
我々は、各特徴が埋め込み空間で消費する分数次元である特徴 \emph{capacity} のレンズを通して行うことを提案する。
玩具モデルにおいて, 最適キャパシティ割り当ては, モノセマンティカルに最も重要な特徴を表現しがちであり, ポリセマンティカルは(損失に対する影響に比例して)重要でない特徴を表現し, 最重要でない特徴を完全に無視する。
多意味性(Polysemanticity)は、入力がより高いクルトーシスまたは疎度を持ち、他のアーキテクチャよりもより一般的な場合である。
容量の最適割り当てが与えられた後、埋め込み空間の幾何学を研究する。
ブロック-半直交構造は、異なるモデルにおけるブロックサイズが異なり、モデルアーキテクチャがニューロンの解釈可能性に与える影響を強調している。
関連論文リスト
- Asymptotics of Learning with Deep Structured (Random) Features [8.593775080183708]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - What Causes Polysemanticity? An Alternative Origin Story of Mixed
Selectivity from Incidental Causes [14.623741848860037]
一連の無関係な特徴を活性化するポリセマンティックニューロンは、タスク最適化されたディープネットワークの解釈可能性に対する重要な障害と見なされている。
データ内のすべての特徴を表現できるニューロンが多数存在する場合でも、多義性は偶発的に起こる可能性があることを示す。
論文 参考訳(メタデータ) (2023-12-05T19:29:54Z) - Heterogeneous Feature Representation for Digital Twin-Oriented Complex
Networked Systems [13.28255056212425]
現実を正確に表現できる複雑なネットワークシステムのモデルを構築することは、重要な研究領域を形成する。
本研究の目的は,Digital Twin-Oriented Complex Networked Systemsにおけるノード特徴の表現力を改善することである。
論文 参考訳(メタデータ) (2023-09-23T01:40:56Z) - Sparse Relational Reasoning with Object-Centric Representations [78.83747601814669]
対象中心表現の操作において,リレーショナルニューラルアーキテクチャによって学習されたソフトルールの構成可能性について検討する。
特に特徴量の増加は,いくつかのモデルの性能を向上し,より単純な関係をもたらすことが判明した。
論文 参考訳(メタデータ) (2022-07-15T14:57:33Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - It's FLAN time! Summing feature-wise latent representations for
interpretability [0.0]
FLAN(Feature-wise Latent Additive Networks)と呼ばれる構造拘束型ニューラルネットワークの新たなクラスを提案する。
FLANは各入力機能を別々に処理し、それぞれに共通の潜在空間の表現を演算する。
これらの特徴的潜在表現は単純に要約され、集約された表現は予測に使用される。
論文 参考訳(メタデータ) (2021-06-18T12:19:33Z) - Towards Lower Bounds on the Depth of ReLU Neural Networks [1.3955252961896318]
我々は、ReLUアクティベーションと所定のアーキテクチャを持つニューラルネットワークによって表現される関数のクラスをよりよく理解するために貢献する。
より多くの層を追加することで、正確に表現可能な関数のクラスが厳密に増大するかどうかを考察する。
論文 参考訳(メタデータ) (2021-05-31T09:49:14Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。
実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文 参考訳(メタデータ) (2020-06-15T08:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。