論文の概要: Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization
- arxiv url: http://arxiv.org/abs/2506.10920v1
- Date: Thu, 12 Jun 2025 17:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.871288
- Title: Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization
- Title(参考訳): 半負行列因子分解によるMLP活性化を解釈可能な特徴に分解する
- Authors: Or Shafran, Atticus Geiger, Mor Geva,
- Abstract要約: 現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。
ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
- 参考スコア(独自算出の注目度): 17.101290138120564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central goal for mechanistic interpretability has been to identify the right units of analysis in large language models (LLMs) that causally explain their outputs. While early work focused on individual neurons, evidence that neurons often encode multiple concepts has motivated a shift toward analyzing directions in activation space. A key question is how to find directions that capture interpretable features in an unsupervised manner. Current methods rely on dictionary learning with sparse autoencoders (SAEs), commonly trained over residual stream activations to learn directions from scratch. However, SAEs often struggle in causal evaluations and lack intrinsic interpretability, as their learning is not explicitly tied to the computations of the model. Here, we tackle these limitations by directly decomposing MLP activations with semi-nonnegative matrix factorization (SNMF), such that the learned features are (a) sparse linear combinations of co-activated neurons, and (b) mapped to their activating inputs, making them directly interpretable. Experiments on Llama 3.1, Gemma 2 and GPT-2 show that SNMF derived features outperform SAEs and a strong supervised baseline (difference-in-means) on causal steering, while aligning with human-interpretable concepts. Further analysis reveals that specific neuron combinations are reused across semantically-related features, exposing a hierarchical structure in the MLP's activation space. Together, these results position SNMF as a simple and effective tool for identifying interpretable features and dissecting concept representations in LLMs.
- Abstract(参考訳): 機械的解釈可能性の中心的な目標は、その出力を因果的に説明する大言語モデル(LLM)において、適切な分析単位を特定することである。
初期の研究は個々のニューロンに焦点を当てていたが、ニューロンがしばしば複数の概念をコードしているという証拠は、活性化空間における方向の分析へのシフトを動機付けている。
重要な疑問は、教師なしの方法で解釈可能な特徴をキャプチャする方法である。
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存しており、スクラッチから方向を学習するために残留ストリームアクティベーションを訓練することが一般的である。
しかし、SAEは因果評価に苦しむことが多く、その学習はモデルの計算に明示的に結びついていないため、本質的な解釈性に欠ける。
ここでは, 半負行列因子化(SNMF)を用いてMLPアクティベーションを直接分解することにより, これらの制約に対処する。
(a)共活性化ニューロンの疎線形結合、及び
(b) アクティベーション入力にマッピングされ、直接解釈可能である。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFは、ヒトの解釈可能な概念と整合しながら、SAEよりも優れた特徴と因果的ステアリングにおける強い教師付きベースライン(差分-in-means)を示す。
さらなる分析により、特定のニューロンの組み合わせが意味論的に関連付けられた特徴によって再利用され、MLPの活性化空間に階層構造が露出することが明らかとなった。
これらの結果から,SNMFは解釈可能な特徴を識別し,概念表現をLLMで識別するためのシンプルで効果的なツールとして位置づけられた。
関連論文リスト
- Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Hybrid Latent Reasoning via Reinforcement Learning [51.06635386903026]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z) - Computation Mechanism Behind LLM Position Generalization [59.013857707250814]
大規模言語モデル(LLM)は、テキストの位置を扱う際の柔軟性を示す。
彼らは位置摂動のあるテキストを理解し、より長いテキストに一般化することができる。
この研究は言語現象とLLMの計算機構を結びつける。
論文 参考訳(メタデータ) (2025-03-17T15:47:37Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - SAFR: Neuron Redistribution for Interpretability [7.756342860929851]
重ね合わせ(英: superposition)とは、単一ニューロン内の複数の特徴の表現を符号化することである。
期待された性能にもかかわらず、モデルの解釈可能性は低下している。
本稿では,特徴重畳を正規化することによってモデル解釈可能性を高める新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T06:20:33Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - The Local Interaction Basis: Identifying Computationally-Relevant and Sparsely Interacting Features in Neural Networks [0.0]
Local Interaction Basisは、無関係なアクティベーションとインタラクションを取り除くことによって、計算的特徴を特定することを目的としている。
モジュラ付加モデルとCIFAR-10モデルにおけるLIBの有効性を評価する。
我々は、LIBはニューラルネットワークを解析するための有望な理論駆動型アプローチであるが、現在の形式では、大きな言語モデルには適用できないと結論付けた。
論文 参考訳(メタデータ) (2024-05-17T17:27:19Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。