論文の概要: Superposition disentanglement of neural representations reveals hidden alignment
- arxiv url: http://arxiv.org/abs/2510.03186v1
- Date: Fri, 03 Oct 2025 17:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.503963
- Title: Superposition disentanglement of neural representations reveals hidden alignment
- Title(参考訳): 隠れたアライメントを呈する神経表現の重畳解離
- Authors: André Longon, David Klindt, Meenakshi Khosla,
- Abstract要約: 神経科学とAIにおいて、表現アライメントメトリクスは、異なるディープニューラルネットワーク(DNN)または脳が類似した情報を表現する範囲を測定する。
我々は、厳密な置換度が重ね合わせに依存するかの理論を開発する。
この結果から,ニューラルネットワーク間の真の表現的アライメントを明らかにするためには,重畳不整合(superposition disentanglement)が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 6.015414975356222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The superposition hypothesis states that a single neuron within a population may participate in the representation of multiple features in order for the population to represent more features than the number of neurons. In neuroscience and AI, representational alignment metrics measure the extent to which different deep neural networks (DNNs) or brains represent similar information. In this work, we explore a critical question: \textit{does superposition interact with alignment metrics in any undesirable way?} We hypothesize that models which represent the same features in \textit{different superposition arrangements}, i.e., their neurons have different linear combinations of the features, will interfere with predictive mapping metrics (semi-matching, soft-matching, linear regression), producing lower alignment than expected. We first develop a theory for how the strict permutation metrics are dependent on superposition arrangements. This is tested by training sparse autoencoders (SAEs) to disentangle superposition in toy models, where alignment scores are shown to typically increase when a model's base neurons are replaced with its sparse overcomplete latent codes. We find similar increases for DNN\(\rightarrow\)DNN and DNN\(\rightarrow\)brain linear regression alignment in the visual domain. Our results suggest that superposition disentanglement is necessary for mapping metrics to uncover the true representational alignment between neural codes.
- Abstract(参考訳): 重ね合わせ仮説は、集団内の1つのニューロンが、個体群がニューロンの数よりも多くの特徴を表現するために、複数の特徴の表現に参加する可能性があることを述べている。
神経科学とAIにおいて、表現アライメントメトリクスは、異なるディープニューラルネットワーク(DNN)または脳が類似した情報を表現する範囲を測定する。
textit{does superpositionは、任意の望ましくない方法でアライメントメトリクスと相互作用しますか?
それらのニューロンは特徴の異なる線形結合を持ち、予測マッピングの指標(セミマッチング、ソフトマッチング、リニア回帰)に干渉し、予想よりも低いアライメントを生み出す。
まず、厳密な置換測度が重畳配置に依存するかの理論を考案する。
これはスパースオートエンコーダ(SAEs)を訓練して、おもちゃのモデルの重ね合わせを解体し、モデルのベースニューロンをスパースオーバーコンプリートコードに置き換えると、アライメントスコアが通常増加することを示す。
視覚領域におけるDNN\(\rightarrow\)DNNとDNN\(\rightarrow\)Brainの線形回帰アライメントについても同様の増加が見られる。
この結果から,ニューラルネットワーク間の真の表現的アライメントを明らかにするためには,重畳不整合(superposition disentanglement)が必要であることが示唆された。
関連論文リスト
- Neuron Platonic Intrinsic Representation From Dynamics Using Contrastive Learning [4.538151592901714]
我々はNeurPIR(Neuron Platonic Intrinsic Representation)フレームワークを提案する。
対照的な学習を使用し、正の対と同じニューロンのセグメントと、負の対である異なるニューロンのセグメントを持つ。
我々はIzhikevichモデルを用いた神経集団動態データを用いて実験を行った。
論文 参考訳(メタデータ) (2025-02-06T02:22:23Z) - Recurrent Neural Networks Learn to Store and Generate Sequences using Non-Linear Representations [54.17275171325324]
線形表現仮説(LRH)に対する反例を提示する。
入力トークンシーケンスを繰り返すように訓練されると、ニューラルネットワークは、方向ではなく、特定の順序で各位置のトークンを表現することを学ぶ。
これらの結果は、解釈可能性の研究はLRHに限定されるべきでないことを強く示唆している。
論文 参考訳(メタデータ) (2024-08-20T15:04:37Z) - Identifying Interpretable Visual Features in Artificial and Biological
Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。
多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。
本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-17T17:41:28Z) - Neuron to Graph: Interpreting Language Model Neurons at Scale [8.32093320910416]
本稿では,大規模言語モデル内の多数のニューロンにまたがる解釈可能性手法のスケールアップを目的とした,新しい自動化手法を提案する。
我々は、トレーニングしたデータセットからニューロンの振る舞いを自動的に抽出し、解釈可能なグラフに変換する革新的なツールであるNeuron to Graph(N2G)を提案する。
論文 参考訳(メタデータ) (2023-05-31T14:44:33Z) - Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。
隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。
実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:52:38Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。