論文の概要: Disentangling Polysemantic Neurons with a Null-Calibrated Polysemanticity Index and Causal Patch Interventions
- arxiv url: http://arxiv.org/abs/2508.16950v1
- Date: Sat, 23 Aug 2025 08:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.270554
- Title: Disentangling Polysemantic Neurons with a Null-Calibrated Polysemanticity Index and Causal Patch Interventions
- Title(参考訳): Null-Calibrated Polysemanticity Index と Causal Patch Intervention を用いた遠心性ポリセマンティックニューロン
- Authors: Manan Gupta, Dhruv Kumar,
- Abstract要約: ポリセマンティリティ指数(英: Polysemanticity Index、PSI)は、ニューロンのトップアクティベーションが意味的に異なるクラスタに分解されたときを定量化する、ヌルキャリブレーションの指標である。
Tiny-ImageNetの画像で評価された事前トレーニングされたResNet-50では、PSIは活性化セットをコヒーレントな名前のプロトタイプに分割したニューロンを特定する。
- 参考スコア(独自算出の注目度): 4.032680910442999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks often contain polysemantic neurons that respond to multiple, sometimes unrelated, features, complicating mechanistic interpretability. We introduce the Polysemanticity Index (PSI), a null-calibrated metric that quantifies when a neuron's top activations decompose into semantically distinct clusters. PSI multiplies three independently calibrated components: geometric cluster quality (S), alignment to labeled categories (Q), and open-vocabulary semantic distinctness via CLIP (D). On a pretrained ResNet-50 evaluated with Tiny-ImageNet images, PSI identifies neurons whose activation sets split into coherent, nameable prototypes, and reveals strong depth trends: later layers exhibit substantially higher PSI than earlier layers. We validate our approach with robustness checks (varying hyperparameters, random seeds, and cross-encoder text heads), breadth analyses (comparing class-only vs. open-vocabulary concepts), and causal patch-swap interventions. In particular, aligned patch replacements increase target-neuron activation significantly more than non-aligned, random, shuffled-position, or ablate-elsewhere controls. PSI thus offers a principled and practical lever for discovering, quantifying, and studying polysemantic units in neural networks.
- Abstract(参考訳): ニューラルネットワークはしばしば、複数の、時には無関係な特徴に反応し、機械的解釈可能性の複雑化を伴う多意味ニューロンを含んでいる。
我々は、ニューロンのトップアクティベーションが意味的に異なるクラスタに分解されるタイミングを定量化する、ヌル校正指標であるPolysemanticity Index (PSI)を導入する。
PSIは、幾何学的クラスタ品質(S)、ラベル付きカテゴリ(Q)へのアライメント、CLIP(D)によるオープンボキャブラリセマンティリティの3つの独立した校正されたコンポーネントを乗算する。
Tiny-ImageNetイメージで評価された事前トレーニングされたResNet-50では、PSIはアクティベーションセットをコヒーレントなプロトタイプに分割したニューロンを特定し、強力な深度傾向を示す。
我々は,ロバストネスチェック(ハイパーパラメータ,ランダムシード,クロスエンコーダテキストヘッド),幅解析(クラスのみとオープンボキャブラリの概念を比較),因果パッチスワップ介入によるアプローチを検証する。
特に、アライメントパッチの置換は、非アライメント、ランダム、シャッフル、またはアブレートエルセの制御よりも、標的ニューロンの活性化を著しく増加させる。
したがって、PSIはニューラルネットワークにおける多意味単位を発見し、定量化し、研究するための原則的で実用的なレバーを提供する。
関連論文リスト
- NeuronScope: A Multi-Agent Framework for Explaining Polysemantic Neurons in Language Models [24.550940304055562]
NeuronScopeは、反復的活性化誘導過程としてニューロン解釈を再構成するマルチエージェントフレームワークである。
我々は,NeuronScopeが隠れた多意味性を解明し,シングルパスベースラインと比較して高いアクティベーション相関を持つ説明を生成することを示した。
論文 参考訳(メタデータ) (2026-01-07T07:50:47Z) - Neuronal Group Communication for Efficient Neural representation [85.36421257648294]
本稿では, 効率的な, モジュラー, 解釈可能な表現を学習する, 大規模ニューラルシステムの構築方法に関する問題に対処する。
本稿では、ニューラルネットワークを相互作用する神経群の動的システムとして再認識する理論駆動型フレームワークである神経グループ通信(NGC)を提案する。
NGCは、重みを埋め込みのようなニューロン状態間の過渡的な相互作用として扱い、神経計算はニューロン群間の反復的なコミュニケーションを通じて展開する。
論文 参考訳(メタデータ) (2025-10-19T14:23:35Z) - Hedonic Neurons: A Mechanistic Mapping of Latent Coalitions in Transformer MLPs [18.335932098245895]
本稿では,連立ゲーム理論に基づく機械的解釈可能性フレームワークを提案する。
非添加作用を有する神経細胞の安定な連なりを抽出する。
次に、レイヤ間の遷移を永続性、分割、マージ、消失として追跡します。
論文 参考訳(メタデータ) (2025-09-28T06:55:24Z) - Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution [16.460751105639623]
高度に正常なニューロンでも,多節性行動が持続的に発現していることが示される。
この観察は、ニューロンの属性からレンジベースの解釈へのシフトを動機付けている。
本稿では,新しいレンジベースの解釈・操作フレームワークであるNeuronLensを紹介する。
論文 参考訳(メタデータ) (2025-02-04T03:33:55Z) - Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンの自動解釈は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - What Causes Polysemanticity? An Alternative Origin Story of Mixed
Selectivity from Incidental Causes [14.623741848860037]
一連の無関係な特徴を活性化するポリセマンティックニューロンは、タスク最適化されたディープネットワークの解釈可能性に対する重要な障害と見なされている。
データ内のすべての特徴を表現できるニューロンが多数存在する場合でも、多義性は偶発的に起こる可能性があることを示す。
論文 参考訳(メタデータ) (2023-12-05T19:29:54Z) - Neuroevolutionary algorithms driven by neuron coverage metrics for
semi-supervised classification [60.60571130467197]
一部の機械学習アプリケーションでは、ラベル付けされていないインスタンスが豊富であるのに対して、教師付き分類のためのラベル付きインスタンスの可用性は制限されている。
本稿では、ニューラルネットワークアーキテクチャ上で計算されたニューラルネットワークカバレッジメトリクスを用いて、未ラベルのインスタンスを利用する神経進化的アプローチを提案する。
論文 参考訳(メタデータ) (2023-03-05T23:38:44Z) - Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。
隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。
実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:52:38Z) - Problem-Dependent Power of Quantum Neural Networks on Multi-Class
Classification [83.20479832949069]
量子ニューラルネットワーク(QNN)は物理世界を理解する上で重要なツールとなっているが、その利点と限界は完全には理解されていない。
本稿では,多クラス分類タスクにおけるQCの問題依存力について検討する。
我々の研究はQNNの課題依存力に光を当て、その潜在的なメリットを評価するための実践的なツールを提供する。
論文 参考訳(メタデータ) (2022-12-29T10:46:40Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - SeReNe: Sensitivity based Regularization of Neurons for Structured
Sparsity in Neural Networks [13.60023740064471]
SeReNeはスパーストポロジを構造で学習する方法である。
ニューロンの感度をネットワーク出力の変動として定義する。
コスト関数のニューロン感度を正規化用語に含めることで、低感度でニューロンをプーンすることができる。
論文 参考訳(メタデータ) (2021-02-07T10:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。