論文の概要: Superposition disentanglement of neural representations reveals hidden alignment
- arxiv url: http://arxiv.org/abs/2510.03186v1
- Date: Fri, 03 Oct 2025 17:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.503963
- Title: Superposition disentanglement of neural representations reveals hidden alignment
- Title(参考訳): 隠れたアライメントを呈する神経表現の重畳解離
- Authors: André Longon, David Klindt, Meenakshi Khosla,
- Abstract要約: 神経科学とAIにおいて、表現アライメントメトリクスは、異なるディープニューラルネットワーク(DNN)または脳が類似した情報を表現する範囲を測定する。
我々は、厳密な置換度が重ね合わせに依存するかの理論を開発する。
この結果から,ニューラルネットワーク間の真の表現的アライメントを明らかにするためには,重畳不整合(superposition disentanglement)が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 6.015414975356222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The superposition hypothesis states that a single neuron within a population may participate in the representation of multiple features in order for the population to represent more features than the number of neurons. In neuroscience and AI, representational alignment metrics measure the extent to which different deep neural networks (DNNs) or brains represent similar information. In this work, we explore a critical question: \textit{does superposition interact with alignment metrics in any undesirable way?} We hypothesize that models which represent the same features in \textit{different superposition arrangements}, i.e., their neurons have different linear combinations of the features, will interfere with predictive mapping metrics (semi-matching, soft-matching, linear regression), producing lower alignment than expected. We first develop a theory for how the strict permutation metrics are dependent on superposition arrangements. This is tested by training sparse autoencoders (SAEs) to disentangle superposition in toy models, where alignment scores are shown to typically increase when a model's base neurons are replaced with its sparse overcomplete latent codes. We find similar increases for DNN\(\rightarrow\)DNN and DNN\(\rightarrow\)brain linear regression alignment in the visual domain. Our results suggest that superposition disentanglement is necessary for mapping metrics to uncover the true representational alignment between neural codes.
- Abstract(参考訳): 重ね合わせ仮説は、集団内の1つのニューロンが、個体群がニューロンの数よりも多くの特徴を表現するために、複数の特徴の表現に参加する可能性があることを述べている。
神経科学とAIにおいて、表現アライメントメトリクスは、異なるディープニューラルネットワーク(DNN)または脳が類似した情報を表現する範囲を測定する。
textit{does superpositionは、任意の望ましくない方法でアライメントメトリクスと相互作用しますか?
それらのニューロンは特徴の異なる線形結合を持ち、予測マッピングの指標(セミマッチング、ソフトマッチング、リニア回帰)に干渉し、予想よりも低いアライメントを生み出す。
まず、厳密な置換測度が重畳配置に依存するかの理論を考案する。
これはスパースオートエンコーダ(SAEs)を訓練して、おもちゃのモデルの重ね合わせを解体し、モデルのベースニューロンをスパースオーバーコンプリートコードに置き換えると、アライメントスコアが通常増加することを示す。
視覚領域におけるDNN\(\rightarrow\)DNNとDNN\(\rightarrow\)Brainの線形回帰アライメントについても同様の増加が見られる。
この結果から,ニューラルネットワーク間の真の表現的アライメントを明らかにするためには,重畳不整合(superposition disentanglement)が必要であることが示唆された。
関連論文リスト
- Identifying Interpretable Visual Features in Artificial and Biological
Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。
多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。
本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-17T17:41:28Z) - Neuron to Graph: Interpreting Language Model Neurons at Scale [8.32093320910416]
本稿では,大規模言語モデル内の多数のニューロンにまたがる解釈可能性手法のスケールアップを目的とした,新しい自動化手法を提案する。
我々は、トレーニングしたデータセットからニューロンの振る舞いを自動的に抽出し、解釈可能なグラフに変換する革新的なツールであるNeuron to Graph(N2G)を提案する。
論文 参考訳(メタデータ) (2023-05-31T14:44:33Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。