論文の概要: Disentangling Polysemantic Neurons with a Null-Calibrated Polysemanticity Index and Causal Patch Interventions
- arxiv url: http://arxiv.org/abs/2508.16950v1
- Date: Sat, 23 Aug 2025 08:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.270554
- Title: Disentangling Polysemantic Neurons with a Null-Calibrated Polysemanticity Index and Causal Patch Interventions
- Title(参考訳): Null-Calibrated Polysemanticity Index と Causal Patch Intervention を用いた遠心性ポリセマンティックニューロン
- Authors: Manan Gupta, Dhruv Kumar,
- Abstract要約: ポリセマンティリティ指数(英: Polysemanticity Index、PSI)は、ニューロンのトップアクティベーションが意味的に異なるクラスタに分解されたときを定量化する、ヌルキャリブレーションの指標である。
Tiny-ImageNetの画像で評価された事前トレーニングされたResNet-50では、PSIは活性化セットをコヒーレントな名前のプロトタイプに分割したニューロンを特定する。
- 参考スコア(独自算出の注目度): 4.032680910442999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks often contain polysemantic neurons that respond to multiple, sometimes unrelated, features, complicating mechanistic interpretability. We introduce the Polysemanticity Index (PSI), a null-calibrated metric that quantifies when a neuron's top activations decompose into semantically distinct clusters. PSI multiplies three independently calibrated components: geometric cluster quality (S), alignment to labeled categories (Q), and open-vocabulary semantic distinctness via CLIP (D). On a pretrained ResNet-50 evaluated with Tiny-ImageNet images, PSI identifies neurons whose activation sets split into coherent, nameable prototypes, and reveals strong depth trends: later layers exhibit substantially higher PSI than earlier layers. We validate our approach with robustness checks (varying hyperparameters, random seeds, and cross-encoder text heads), breadth analyses (comparing class-only vs. open-vocabulary concepts), and causal patch-swap interventions. In particular, aligned patch replacements increase target-neuron activation significantly more than non-aligned, random, shuffled-position, or ablate-elsewhere controls. PSI thus offers a principled and practical lever for discovering, quantifying, and studying polysemantic units in neural networks.
- Abstract(参考訳): ニューラルネットワークはしばしば、複数の、時には無関係な特徴に反応し、機械的解釈可能性の複雑化を伴う多意味ニューロンを含んでいる。
我々は、ニューロンのトップアクティベーションが意味的に異なるクラスタに分解されるタイミングを定量化する、ヌル校正指標であるPolysemanticity Index (PSI)を導入する。
PSIは、幾何学的クラスタ品質(S)、ラベル付きカテゴリ(Q)へのアライメント、CLIP(D)によるオープンボキャブラリセマンティリティの3つの独立した校正されたコンポーネントを乗算する。
Tiny-ImageNetイメージで評価された事前トレーニングされたResNet-50では、PSIはアクティベーションセットをコヒーレントなプロトタイプに分割したニューロンを特定し、強力な深度傾向を示す。
我々は,ロバストネスチェック(ハイパーパラメータ,ランダムシード,クロスエンコーダテキストヘッド),幅解析(クラスのみとオープンボキャブラリの概念を比較),因果パッチスワップ介入によるアプローチを検証する。
特に、アライメントパッチの置換は、非アライメント、ランダム、シャッフル、またはアブレートエルセの制御よりも、標的ニューロンの活性化を著しく増加させる。
したがって、PSIはニューラルネットワークにおける多意味単位を発見し、定量化し、研究するための原則的で実用的なレバーを提供する。
関連論文リスト
- Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution [16.460751105639623]
高度に正常なニューロンでも,多節性行動が持続的に発現していることが示される。
この観察は、ニューロンの属性からレンジベースの解釈へのシフトを動機付けている。
本稿では,新しいレンジベースの解釈・操作フレームワークであるNeuronLensを紹介する。
論文 参考訳(メタデータ) (2025-02-04T03:33:55Z) - What Causes Polysemanticity? An Alternative Origin Story of Mixed
Selectivity from Incidental Causes [14.623741848860037]
一連の無関係な特徴を活性化するポリセマンティックニューロンは、タスク最適化されたディープネットワークの解釈可能性に対する重要な障害と見なされている。
データ内のすべての特徴を表現できるニューロンが多数存在する場合でも、多義性は偶発的に起こる可能性があることを示す。
論文 参考訳(メタデータ) (2023-12-05T19:29:54Z) - Neuroevolutionary algorithms driven by neuron coverage metrics for
semi-supervised classification [60.60571130467197]
一部の機械学習アプリケーションでは、ラベル付けされていないインスタンスが豊富であるのに対して、教師付き分類のためのラベル付きインスタンスの可用性は制限されている。
本稿では、ニューラルネットワークアーキテクチャ上で計算されたニューラルネットワークカバレッジメトリクスを用いて、未ラベルのインスタンスを利用する神経進化的アプローチを提案する。
論文 参考訳(メタデータ) (2023-03-05T23:38:44Z) - Problem-Dependent Power of Quantum Neural Networks on Multi-Class
Classification [83.20479832949069]
量子ニューラルネットワーク(QNN)は物理世界を理解する上で重要なツールとなっているが、その利点と限界は完全には理解されていない。
本稿では,多クラス分類タスクにおけるQCの問題依存力について検討する。
我々の研究はQNNの課題依存力に光を当て、その潜在的なメリットを評価するための実践的なツールを提供する。
論文 参考訳(メタデータ) (2022-12-29T10:46:40Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。