論文の概要: Negative Pre-activations Differentiate Syntax
- arxiv url: http://arxiv.org/abs/2509.24198v1
- Date: Mon, 29 Sep 2025 02:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.694467
- Title: Negative Pre-activations Differentiate Syntax
- Title(参考訳): 負のプレアクティベーション差分構文
- Authors: Linghao Kong, Angelina Ning, Micah Adler, Nir Shavit,
- Abstract要約: ワッサースタインニューロンとして知られる最近発見された絡み合ったニューロンのクラスは、大きな言語モデルでは不均等に重要である。
絡み合ったニューロンのスパース部分集合における負の分化は、言語モデルが構文に依存する重要なメカニズムであることを示す。
- 参考スコア(独自算出の注目度): 3.623168857780243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recently discovered class of entangled neurons, known as Wasserstein neurons, is disproportionately critical in large language models despite constituting only a very small fraction of the network: their targeted removal collapses the model, consistent with their unique role in differentiating similar inputs. Interestingly, in Wasserstein neurons immediately preceding smooth activation functions, such differentiation manifests in the negative pre-activation space, especially in early layers. Pairs of similar inputs are driven to highly distinct negative values, and these pairs involve syntactic tokens such as determiners and prepositions. We show that this negative region is functional rather than simply favorable for optimization. A minimal, sign-specific intervention that zeroes only the negative pre-activations of a small subset of entangled neurons significantly weakens overall model function and disrupts grammatical behavior, while both random and perplexity-matched controls leave grammatical performance largely unchanged. Part of speech analysis localizes the excess surprisal to syntactic scaffolding tokens, and layer-specific interventions reveal that small local degradations accumulate across depth. Over training checkpoints, the same ablation impairs grammatical behavior as Wasserstein neurons emerge and stabilize. Together, these results identify negative differentiation in a sparse subset of entangled neurons as a crucial mechanism that language models rely on for syntax.
- Abstract(参考訳): ワッサースタインニューロンとして知られる最近発見された絡み合ったニューロンのクラスは、ネットワークのごく一部を構成するにもかかわらず、大きな言語モデルでは不均等に重要なものである。
興味深いことに、ワッサースタインニューロンは、スムーズな活性化関数に先行して、特に初期の層において、負のプレアクティベーション空間にそのような分化が現れる。
類似した入力のペアは、非常に異なる負の値に駆動され、これらのペアは、決定子や前置詞のような構文トークンを含む。
この負の領域は単に最適化に有利ではなく機能的であることを示す。
絡み合ったニューロンの小さなサブセットの負のプレアクティベーションのみをゼロにする最小限のシグナル特異的介入は、全体的なモデル機能を大幅に弱め、文法的振る舞いを阻害する。
音声分析の一部は、構文的スキャフォールディングトークンの過剰な副産物を局所化し、層特異的な介入により、小さな局所的な劣化が深さにわたって蓄積されることが分かる。
トレーニングチェックポイントの間、同じアブレーションはワッサースタインニューロンが出現し安定するのと同じ文法的振舞いを損なう。
これらの結果は、言語モデルが文法に頼っている重要なメカニズムとして、絡み合ったニューロンのスパースサブセットにおける負の分化を識別する。
関連論文リスト
- Uncovering Memorization Effect in the Presence of Spurious Correlations [19.824897288786303]
本論文は,ネットワーク内の小さなニューロンの集合における突発的特徴の存在を系統的に示す。
ニューロンの小さなサブセットに集中する急激な記憶は、不均衡なグループパフォーマンスを駆動する上で重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2025-01-01T21:45:00Z) - Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - On Neurons Invariant to Sentence Structural Changes in Neural Machine
Translation [35.32217580058933]
我々は、英語で制御された構文的パラフレーズのデータセットを、その参照ドイツ語翻訳でコンパイルする。
パラフレーズ間で相関するニューロンを同定し、観察された相関関係を推定し、起こりうる相同点に分解する。
我々は、特定の構文形式への翻訳に影響を与えるためにニューロンの活性化を操作する。
論文 参考訳(メタデータ) (2021-10-06T20:57:57Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。