論文の概要: Disentangling MLP Neuron Weights in Vocabulary Space
- arxiv url: http://arxiv.org/abs/2604.06005v1
- Date: Tue, 07 Apr 2026 15:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.912709
- Title: Disentangling MLP Neuron Weights in Vocabulary Space
- Title(参考訳): 語彙空間におけるMLPニューロン重みの遠位化
- Authors: Asaf Avrahamy, Yoav Gur-Arieh, Mor Geva,
- Abstract要約: ROTATEは、フォワードパスを必要としないデータフリーの手法で、重み空間でニューロンを直接巻き付ける。
我々のアプローチは重要な統計観測に依存しており、コヒーレントで単意味的な概念をコードするニューロンは、モデルの語彙に投影されたときに高い曲率を示す。
Llama-3.1-8B-InstructとGemma-2-2B-itの実験は、ROTATEがニューロンの行動に忠実な語彙チャネルを一貫して回復することを示した。
- 参考スコア(独自算出の注目度): 24.015614062970247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpreting the information encoded in model weights remains a fundamental challenge in mechanistic interpretability. In this work, we introduce ROTATE (Rotation-Optimized Token Alignment in weighT spacE), a data-free method requiring no forward passes that disentangles MLP neurons directly in weight space. Our approach relies on a key statistical observation: neurons that encode coherent, monosemantic concepts exhibit high kurtosis when projected onto the model's vocabulary. By optimizing rotations of neuron weights to maximize their vocabulary-space kurtosis, our method recovers sparse, interpretable directions which we name vocabulary channels. Experiments on Llama-3.1-8B-Instruct and Gemma-2-2B-it demonstrate that ROTATE consistently recovers vocabulary channels that are faithful to the neuron's behavior. ablating individual channels selectively disables corresponding input activations or the promotion of specific concepts. Moreover, aggregating channel-level descriptions yields comprehensive neuron descriptions that outperform optimized activation-based baselines by 2-3x in head-to-head comparisons. By providing a data-free decomposition of neuron weights, ROTATE offers a scalable, fine-grained building block for interpreting LMs.
- Abstract(参考訳): モデルウェイトで符号化された情報を解釈することは、力学的解釈可能性において根本的な課題である。
本研究では,MLPニューロンを直接重み空間に分散させる前方通過を必要としないデータフリー手法であるROTATE(Rotation-Optimized Token Alignment in weighT spacE)を導入する。
我々のアプローチは重要な統計観測に依存しており、コヒーレントで単意味的な概念をコードするニューロンは、モデルの語彙に投影されたときに高い曲率を示す。
ニューロン重みの回転を最適化して、語彙空間の曲率を最大化することにより、語彙チャネルと呼ばれるスパースで解釈可能な方向を回復する。
Llama-3.1-8B-InstructとGemma-2-2B-itの実験は、ROTATEがニューロンの行動に忠実な語彙チャネルを一貫して回復することを示した。
個々のチャンネルを非難することは、対応する入力アクティベーションや特定の概念の促進を選択的に無効にする。
さらに、アグリゲーションチャネルレベルの記述は、頭と頭の比較において活性化ベースのベースラインを2~3倍に最適化した、包括的なニューロン記述をもたらす。
ニューロンの重みをデータフリーで分解することで、ROTATEはLMを解釈するためのスケーラブルできめ細かいビルディングブロックを提供する。
関連論文リスト
- A Few Bad Neurons: Isolating and Surgically Correcting Sycophancy [7.405817106579332]
大規模言語モデルの振る舞いアライメントは、広範囲の微調整によって達成されることが多い。
本研究では,特定の行動に最も責任があるニューロンのみを特定し,更新するアライメント手法を提案する。
以上の結果から,スパークでニューロンレベルの更新は,フルモデルファインチューニングに代わる,スケーラブルで高精度な代替手段であることがわかった。
論文 参考訳(メタデータ) (2026-01-26T20:20:13Z) - Neuronal Group Communication for Efficient Neural representation [85.36421257648294]
本稿では, 効率的な, モジュラー, 解釈可能な表現を学習する, 大規模ニューラルシステムの構築方法に関する問題に対処する。
本稿では、ニューラルネットワークを相互作用する神経群の動的システムとして再認識する理論駆動型フレームワークである神経グループ通信(NGC)を提案する。
NGCは、重みを埋め込みのようなニューロン状態間の過渡的な相互作用として扱い、神経計算はニューロン群間の反復的なコミュニケーションを通じて展開する。
論文 参考訳(メタデータ) (2025-10-19T14:23:35Z) - Probing Neural Topology of Large Language Models [12.298921317333452]
本稿では,大規模言語モデルの機能的接続を明らかにするためのグラフ探索手法を提案する。
多様なLLMファミリーやスケールのモデルを探索することにより、次の予測性能の普遍的な予測可能性を見出す。
興味深いことに、トポロジーの探索は、最大130.4%のアクティベーションでの探索よりも優れている。
論文 参考訳(メタデータ) (2025-06-01T14:57:03Z) - Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution [16.460751105639623]
高度に正常なニューロンでも,多節性行動が持続的に発現していることが示される。
この観察は、ニューロンの属性からレンジベースの解釈へのシフトを動機付けている。
本稿では,新しいレンジベースの解釈・操作フレームワークであるNeuronLensを紹介する。
論文 参考訳(メタデータ) (2025-02-04T03:33:55Z) - Flash Interpretability: Decoding Specialised Feature Neurons in Large Language Models with the LM-Head [0.0]
本研究では,大きな言語モデルの最終射影層を通じて,ニューロンの重みを直接トークン確率に復号することが可能であることを示す。
これはLlama 3.1 8Bで説明され、LMヘッドを用いて「犬」ニューロンや「カリフォルニア」ニューロンのような特化された特徴ニューロンの例を見つける。
論文 参考訳(メタデータ) (2025-01-05T23:35:47Z) - Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンの自動解釈は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - Investigating the Encoding of Words in BERT's Neurons using Feature
Textualization [11.943486282441143]
本稿では,埋め込み語空間におけるニューロンの表現を生成する手法を提案する。
生成した表現は、個々のニューロンにおける符号化された知識についての洞察を与えることができる。
論文 参考訳(メタデータ) (2023-11-14T15:21:49Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。