論文の概要: Understanding Gated Neurons in Transformers from Their Input-Output Functionality
- arxiv url: http://arxiv.org/abs/2505.17936v1
- Date: Fri, 23 May 2025 14:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.141164
- Title: Understanding Gated Neurons in Transformers from Their Input-Output Functionality
- Title(参考訳): 入力出力関数による変圧器のゲートニューロンの理解
- Authors: Sebastian Gerstner, Hinrich Schütze,
- Abstract要約: ニューロンの入力重みと出力重みのコサイン類似性について検討する。
初期中間層ではエンリッチメントニューロンが支配的であり,後期層では枯渇傾向が見られた。
- 参考スコア(独自算出の注目度): 48.91500104957796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability researchers have attempted to understand MLP neurons of language models based on both the contexts in which they activate and their output weight vectors. They have paid little attention to a complementary aspect: the interactions between input and output. For example, when neurons detect a direction in the input, they might add much the same direction to the residual stream ("enrichment neurons") or reduce its presence ("depletion neurons"). We address this aspect by examining the cosine similarity between input and output weights of a neuron. We apply our method to 12 models and find that enrichment neurons dominate in early-middle layers whereas later layers tend more towards depletion. To explain this finding, we argue that enrichment neurons are largely responsible for enriching concept representations, one of the first steps of factual recall. Our input-output perspective is a complement to activation-dependent analyses and to approaches that treat input and output separately.
- Abstract(参考訳): 解釈可能性の研究者は、それらが活性化する文脈と出力重みベクトルの両方に基づいて、言語モデルのMLPニューロンを理解することを試みた。
彼らは、入力と出力の間の相互作用という相補的な側面にほとんど注意を払わなかった。
例えば、ニューロンが入力の方向を検出すると、残留するストリーム(エンリッチメントニューロン)にほとんど同じ方向を追加するか、その存在を減少させる(削除ニューロン)。
本稿では,ニューロンの入力重みと出力重みのコサイン類似性を検討することで,この問題に対処する。
本手法を12種類のモデルに適用し, 初期中間層ではエンリッチメントニューロンが支配的であるのに対して, 後期層では枯渇傾向が見られた。
この発見を説明するために、我々は、ニューロンの富化が概念表現の豊か化に大きく寄与していると論じる。
我々のインプット・アウトプット・パースペクティブは、アクティベーションに依存した分析と、インプットとアウトプットを別々に扱うアプローチを補完するものである。
関連論文リスト
- NeurFlow: Interpreting Neural Networks through Neuron Groups and Functional Interactions [16.00223741620103]
本稿では、個々のニューロンの分析からニューロン群の調査へと焦点を移す新しい枠組みを提案する。
自動フレームワークNeurFlowは、まずコアニューロンを特定し、共有機能関係に基づいてグループにクラスタ化する。
論文 参考訳(メタデータ) (2025-02-22T06:01:03Z) - Modeling Dynamic Neural Activity by combining Naturalistic Video Stimuli and Stimulus-independent Latent Factors [5.967290675400836]
本稿では,映像刺激と刺激非依存の潜伏因子からニューロン反応の結合分布を予測する確率モデルを提案する。
その結果,他のニューロンからの反応を条件づけた場合,対数様態で映像のみのモデルより優れ,可能性や相関性が向上することが判明した。
論文 参考訳(メタデータ) (2024-10-21T16:01:39Z) - Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンの自動解釈は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - Wasserstein Distances, Neuronal Entanglement, and Sparsity [32.403833231587846]
本研究では,特に重み空間下での非絡み合いが,パフォーマンスの理解にどのように役立つかを検討する。
LLMの各リニア層に、少数の高度に絡み合った「ワッサースタインニューロン」が存在することを示す。
我々のフレームワークは各層の入力を分離し、各ニューロンの出力がワーセルシュタイン距離の低いニューロンの混合によって計算される専門家の混合を生成する。
論文 参考訳(メタデータ) (2024-05-24T17:51:39Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - Optimal Learning with Excitatory and Inhibitory synapses [91.3755431537592]
相関関係の存在下でアナログ信号間の関連性を保持するという課題について検討する。
ランダムな入力および出力プロセスのパワースペクトルの観点から、典型的な学習性能を特徴付ける。
論文 参考訳(メタデータ) (2020-05-25T18:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。