論文の概要: Darkness Visible: Reading the Exception Handler of a Language Model
- arxiv url: http://arxiv.org/abs/2604.04756v1
- Date: Mon, 06 Apr 2026 15:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.248522
- Title: Darkness Visible: Reading the Exception Handler of a Language Model
- Title(参考訳): Darkness Visible: 言語モデルの例外ハンドラを読む
- Authors: Peter Balogh,
- Abstract要約: GPT-2は、構文構造ではなくトークンレベルの予測可能性で動作する例外ハンドラと、直ちに動詞のサブカテゴリ化を使用する。
このアーキテクチャは終端層のみを結晶化します -- より深いモデルでは、最終層において、第11層ではなく、等価な構造を予測します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The final MLP of GPT-2 Small exhibits a fully legible routing program -- 27 named neurons organized into a three-tier exception handler -- while the knowledge it routes remains entangled across ~3,040 residual neurons. We decompose all 3,072 neurons (to numerical precision) into: 5 fused Core neurons that reset vocabulary toward function words, 10 Differentiators that suppress wrong candidates, 5 Specialists that detect structural boundaries, and 7 Consensus neurons that each monitor a distinct linguistic dimension. The consensus-exception crossover -- where MLP intervention shifts from helpful to harmful -- is statistically sharp (bootstrap 95% CIs exclude zero at all consensus levels; crossover between 4/7 and 5/7). Three experiments show that "knowledge neurons" (Dai et al., 2022), at L11 of this model, function as routing infrastructure rather than fact storage: the MLP amplifies or suppresses signals already present in the residual stream from attention, scaling with contextual constraint. A garden-path experiment reveals a reversed garden-path effect -- GPT-2 uses verb subcategorization immediately, consistent with the exception handler operating at token-level predictability rather than syntactic structure. This architecture crystallizes only at the terminal layer -- in deeper models, we predict equivalent structure at the final layer, not at layer 11. Code and data: https://github.com/pbalogh/transparent-gpt2
- Abstract(参考訳): GPT-2 の最終的な MLP は、27個の命名されたニューロンが3階層の例外ハンドラに編成された完全なルーティングプログラムを示し、経路の知識はおよそ3,040個の残留ニューロンに絡み合っている。
我々は,3,072個のニューロンを,機能語に対して語彙をリセットする5つの融合コアニューロン,誤った候補を抑える10個の微分器,構造的境界を検出する5つのスペシャリスト,それぞれが異なる言語的次元を監視する7つのコンセンサスニューロンに分解する。
MLPの介入が役に立つものから有害なものへとシフトするコンセンサス例外のクロスオーバーは統計的に鋭い(ブートストラップ95%のCIはすべてのコンセンサスレベルでゼロを除外し、4/7から5/7の間のクロスオーバー)。
3つの実験により、このモデルのL11における「知識ニューロン」(Dai et al , 2022)は、事実記憶よりもルーティング基盤として機能することが示された。
GPT-2は、構文構造ではなくトークンレベルの予測可能性で動作する例外ハンドラと一致して、動詞のサブカテゴリ化を即座に使用する。
このアーキテクチャは終端層のみを結晶化します -- より深いモデルでは、最終層において、第11層ではなく、等価な構造を予測します。
コードとデータ:https://github.com/pbalogh/transparent-gpt2
関連論文リスト
- Fundamental Limits of Neural Network Sparsification: Evidence from Catastrophic Interpretability Collapse [7.167095059974211]
本研究では, 可変オートエンコーダ-スパースオートエンコーダアーキテクチャにおける重大容量制約下での機能生存について検討する。
本稿では,活動ニューロンを500から50以上の訓練エポックに段階的に減少させる適応的空間性スケジューリングフレームワークを提案する。
グローバルな表現の質は安定しているが、局所的な特徴解釈可能性は体系的に崩壊する。
論文 参考訳(メタデータ) (2026-03-18T00:16:38Z) - The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers [0.0]
言語モデルの層が連続的な信号のバイナリルーティングを行うことを示す。
特定のニューロンは93-98%の相互排他的なコンセンサスアーキテクチャを実装している。
本稿では,ディープネットワークの高機能な特徴付けをルーティング特徴付けによって補うことを提案する。
論文 参考訳(メタデータ) (2026-03-11T17:14:57Z) - Language Model Circuits Are Sparse in the Neuron Basis [50.460651620833055]
その結果, textbfMLP ニューロンは SAE と同様の機能的基盤であることがわかった。
この作業は、追加のトレーニングコストなしで言語モデルの自動解釈可能性を向上させる。
論文 参考訳(メタデータ) (2026-01-30T05:41:19Z) - A Few Bad Neurons: Isolating and Surgically Correcting Sycophancy [7.405817106579332]
大規模言語モデルの振る舞いアライメントは、広範囲の微調整によって達成されることが多い。
本研究では,特定の行動に最も責任があるニューロンのみを特定し,更新するアライメント手法を提案する。
以上の結果から,スパークでニューロンレベルの更新は,フルモデルファインチューニングに代わる,スケーラブルで高精度な代替手段であることがわかった。
論文 参考訳(メタデータ) (2026-01-26T20:20:13Z) - Disentangling Polysemantic Neurons with a Null-Calibrated Polysemanticity Index and Causal Patch Interventions [4.032680910442999]
ポリセマンティリティ指数(英: Polysemanticity Index、PSI)は、ニューロンのトップアクティベーションが意味的に異なるクラスタに分解されたときを定量化する、ヌルキャリブレーションの指標である。
Tiny-ImageNetの画像で評価された事前トレーニングされたResNet-50では、PSIは活性化セットをコヒーレントな名前のプロトタイプに分割したニューロンを特定する。
論文 参考訳(メタデータ) (2025-08-23T08:48:59Z) - Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンの自動解釈は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - Are Neurons Actually Collapsed? On the Fine-Grained Structure in Neural
Representations [28.249932563821712]
最近の研究は、よく訓練されたニューラルネットワークで興味深い'Neural Collapse'現象を観測している。
これは、最後の層表現がラベルによって完全に決定されていることを示唆している。
明らかな崩壊は、表現において重要なきめ細かな構造を隠蔽することを示す。
論文 参考訳(メタデータ) (2023-06-29T17:07:34Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。