論文の概要: Understanding Gated Neurons in Transformers from Their Input-Output Functionality
- arxiv url: http://arxiv.org/abs/2505.17936v1
- Date: Fri, 23 May 2025 14:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.141164
- Title: Understanding Gated Neurons in Transformers from Their Input-Output Functionality
- Title(参考訳): 入力出力関数による変圧器のゲートニューロンの理解
- Authors: Sebastian Gerstner, Hinrich Schütze,
- Abstract要約: ニューロンの入力重みと出力重みのコサイン類似性について検討する。
初期中間層ではエンリッチメントニューロンが支配的であり,後期層では枯渇傾向が見られた。
- 参考スコア(独自算出の注目度): 48.91500104957796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability researchers have attempted to understand MLP neurons of language models based on both the contexts in which they activate and their output weight vectors. They have paid little attention to a complementary aspect: the interactions between input and output. For example, when neurons detect a direction in the input, they might add much the same direction to the residual stream ("enrichment neurons") or reduce its presence ("depletion neurons"). We address this aspect by examining the cosine similarity between input and output weights of a neuron. We apply our method to 12 models and find that enrichment neurons dominate in early-middle layers whereas later layers tend more towards depletion. To explain this finding, we argue that enrichment neurons are largely responsible for enriching concept representations, one of the first steps of factual recall. Our input-output perspective is a complement to activation-dependent analyses and to approaches that treat input and output separately.
- Abstract(参考訳): 解釈可能性の研究者は、それらが活性化する文脈と出力重みベクトルの両方に基づいて、言語モデルのMLPニューロンを理解することを試みた。
彼らは、入力と出力の間の相互作用という相補的な側面にほとんど注意を払わなかった。
例えば、ニューロンが入力の方向を検出すると、残留するストリーム(エンリッチメントニューロン)にほとんど同じ方向を追加するか、その存在を減少させる(削除ニューロン)。
本稿では,ニューロンの入力重みと出力重みのコサイン類似性を検討することで,この問題に対処する。
本手法を12種類のモデルに適用し, 初期中間層ではエンリッチメントニューロンが支配的であるのに対して, 後期層では枯渇傾向が見られた。
この発見を説明するために、我々は、ニューロンの富化が概念表現の豊か化に大きく寄与していると論じる。
我々のインプット・アウトプット・パースペクティブは、アクティベーションに依存した分析と、インプットとアウトプットを別々に扱うアプローチを補完するものである。
関連論文リスト
- Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンの自動解釈は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。