Fugu-MT 論文翻訳(概要): Polysemanticity and Capacity in Neural Networks

論文の概要: Polysemanticity and Capacity in Neural Networks

arxiv url: http://arxiv.org/abs/2210.01892v1
Date: Tue, 4 Oct 2022 20:28:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 12:31:58.607223
Title: Polysemanticity and Capacity in Neural Networks
Title（参考訳）: ニューラルネットワークの多次元性とキャパシティ
Authors: Adam Scherlis, Kshitij Sachan, Adam S. Jermyn, Joe Benton, Buck Shlegeris
Abstract要約: ニューラルネットワークの個々のニューロンは、しばしば無関係な特徴の混合を表す。この現象は多意味性(polysemanticity)と呼ばれ、ニューラルネットワークの解釈を難しくする。
参考スコア（独自算出の注目度）: 1.4174475093445233
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Individual neurons in neural networks often represent a mixture of unrelated features. This phenomenon, called polysemanticity, can make interpreting neural networks more difficult and so we aim to understand its causes. We propose doing so through the lens of feature \emph{capacity}, which is the fractional dimension each feature consumes in the embedding space. We show that in a toy model the optimal capacity allocation tends to monosemantically represent the most important features, polysemantically represent less important features (in proportion to their impact on the loss), and entirely ignore the least important features. Polysemanticity is more prevalent when the inputs have higher kurtosis or sparsity and more prevalent in some architectures than others. Given an optimal allocation of capacity, we go on to study the geometry of the embedding space. We find a block-semi-orthogonal structure, with differing block sizes in different models, highlighting the impact of model architecture on the interpretability of its neurons.
Abstract（参考訳）: ニューラルネットワークの個々のニューロンは、しばしば無関係な特徴の混合を表す。この現象は多意味性(polysemanticity)と呼ばれ、ニューラルネットワークの解釈をより困難にするので、その原因を理解することを目指している。我々は、各特徴が埋め込み空間で消費する分数次元である特徴 \emph{capacity} のレンズを通して行うことを提案する。玩具モデルにおいて, 最適キャパシティ割り当ては, モノセマンティカルに最も重要な特徴を表現しがちであり, ポリセマンティカルは(損失に対する影響に比例して)重要でない特徴を表現し, 最重要でない特徴を完全に無視する。多意味性(Polysemanticity)は、入力がより高いクルトーシスまたは疎度を持ち、他のアーキテクチャよりもより一般的な場合である。容量の最適割り当てが与えられた後、埋め込み空間の幾何学を研究する。ブロック-半直交構造は、異なるモデルにおけるブロックサイズが異なり、モデルアーキテクチャがニューロンの解釈可能性に与える影響を強調している。

関連論文リスト

Beyond Scaling Curves: Internal Dynamics of Neural Networks Through the NTK Lens [0.5745241788717261]
我々は、ニューラルネットワークがデータの下でどのように振る舞うかを経験的に分析し、ニューラル・タンジェント・カーネル(NTK)のレンズを通してモデルをスケーリングする。我々の標準的な視覚タスクの発見は、内部モデル力学が逆の挙動を示すにもかかわらず、同様のパフォーマンススケーリング指数が生じることを示している。また、無限幅制限への収束が有限幅モデルにおけるスケーリングの挙動にどのように影響するかという未解決のニューラルスケーリング問題にも対処する。
論文参考訳（メタデータ） (2025-07-07T14:17:44Z)
Probing the Vulnerability of Large Language Models to Polysemantic Interventions [49.64902130083662]
2つの小モデル(Pythia-70MとGPT-2-Small)の多意味構造について検討する。解析の結果,両モデルに共通する一貫した多意味トポロジーが明らかになった。興味深いことに、この構造を利用して、2つの大きなブラックボックス命令調整モデルに効果的な介入を組み込むことができる。
論文参考訳（メタデータ） (2025-05-16T18:20:42Z)
Plastic Arbor: a modern simulation framework for synaptic plasticity $\unicode{x2013}$ from single synapses to networks of morphological neurons [0.8796261172196743]
人間や他の動物では、シナプスの可塑性過程は学習や記憶などの認知機能において重要な役割を果たす。近年の研究では、デンドライトの細胞内分子過程が単一ニューロンの動態に大きく影響していることが示されている。我々はArborライブラリをPlastic Arborフレームワークに拡張し、様々なスパイク駆動型塑性パラダイムのシミュレーションをサポートした。
論文参考訳（メタデータ） (2024-11-25T14:51:13Z)
Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。記号の配置に非依存であり、それによって表現される意味論にのみ依存する。識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文参考訳（メタデータ） (2024-05-12T22:18:25Z)
Towards Explaining Hypercomplex Neural Networks [6.543091030789653]
ハイパーコンプレックスニューラルネットワークは、ディープラーニングコミュニティへの関心が高まっている。本稿では,本質的に解釈可能なPHNNと4元ネットワークを提案する。我々は、このユニークなニューラルネットワークのブランチがどのように機能するかを洞察する。
論文参考訳（メタデータ） (2024-03-26T17:58:07Z)
Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文参考訳（メタデータ） (2024-02-21T18:35:27Z)
What Causes Polysemanticity? An Alternative Origin Story of Mixed Selectivity from Incidental Causes [14.623741848860037]
一連の無関係な特徴を活性化するポリセマンティックニューロンは、タスク最適化されたディープネットワークの解釈可能性に対する重要な障害と見なされている。データ内のすべての特徴を表現できるニューロンが多数存在する場合でも、多義性は偶発的に起こる可能性があることを示す。
論文参考訳（メタデータ） (2023-12-05T19:29:54Z)
Heterogeneous Feature Representation for Digital Twin-Oriented Complex Networked Systems [13.28255056212425]
現実を正確に表現できる複雑なネットワークシステムのモデルを構築することは、重要な研究領域を形成する。本研究の目的は,Digital Twin-Oriented Complex Networked Systemsにおけるノード特徴の表現力を改善することである。
論文参考訳（メタデータ） (2023-09-23T01:40:56Z)
Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文参考訳（メタデータ） (2021-10-12T23:22:45Z)
The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文参考訳（メタデータ） (2021-07-31T10:25:26Z)
The Causal Neural Connection: Expressiveness, Learnability, and Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文参考訳（メタデータ） (2021-07-02T01:55:18Z)
Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文参考訳（メタデータ） (2020-08-19T04:53:31Z)
Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文参考訳（メタデータ） (2020-06-15T08:23:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。