論文の概要: Language Model Circuits Are Sparse in the Neuron Basis
- arxiv url: http://arxiv.org/abs/2601.22594v1
- Date: Fri, 30 Jan 2026 05:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.253911
- Title: Language Model Circuits Are Sparse in the Neuron Basis
- Title(参考訳): 言語モデル回路はニューロン基底においてスパースである
- Authors: Aryaman Arora, Zhengxuan Wu, Jacob Steinhardt, Sarah Schwettmann,
- Abstract要約: その結果, textbfMLP ニューロンは SAE と同様の機能的基盤であることがわかった。
この作業は、追加のトレーニングコストなしで言語モデルの自動解釈可能性を向上させる。
- 参考スコア(独自算出の注目度): 50.460651620833055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The high-level concepts that a neural network uses to perform computation need not be aligned to individual neurons (Smolensky, 1986). Language model interpretability research has thus turned to techniques such as \textit{sparse autoencoders} (SAEs) to decompose the neuron basis into more interpretable units of model computation, for tasks such as \textit{circuit tracing}. However, not all neuron-based representations are uninterpretable. For the first time, we empirically show that \textbf{MLP neurons are as sparse a feature basis as SAEs}. We use this finding to develop an end-to-end pipeline for circuit tracing on the MLP neuron basis, which locates causal circuitry on a variety of tasks using gradient-based attribution. On a standard subject-verb agreement benchmark (Marks et al., 2025), a circuit of $\approx 10^2$ MLP neurons is enough to control model behaviour. On the multi-hop city $\to$ state $\to$ capital task from Lindsey et al., 2025, we find a circuit in which small sets of neurons encode specific latent reasoning steps (e.g.~`map city to its state'), and can be steered to change the model's output. This work thus advances automated interpretability of language models without additional training costs.
- Abstract(参考訳): ニューラルネットワークが計算を行うために使用する高レベルな概念は、個々のニューロンに整列する必要はない(Smolensky, 1986)。
言語モデル解釈可能性の研究は、例えば \textit{sparse autoencoders} (SAEs) のような手法に転換し、神経基盤をより解釈可能なモデル計算単位に分解する。
しかし、全てのニューロンベースの表現は解釈不能であるわけではない。
初めて実験により, \textbf{MLP ニューロンは SAEs と同程度にスパースであることが示された。
本研究では,MLPニューロンに基づく回路トレースのためのエンドツーエンドパイプラインを開発し,勾配に基づく属性を用いた様々なタスクにおける因果回路の探索を行う。
標準主元合意ベンチマーク(Marks et al , 2025)では、$\approx 10^2$ MLPニューロンの回路はモデル動作を制御するのに十分である。
マルチホップシティ $\to$ state $\to$ capital task from Lindsey et al , 2025 では、小さなニューロンが特定の遅延推論ステップ(例 ~`map city to its state')を符号化し、モデルの出力を変更することができる回路を見つける。
この作業は、追加のトレーニングコストを伴わずに、言語モデルの自動解釈可能性を向上させる。
関連論文リスト
- Minimal Neuron Circuits -- Part I: Resonators [1.1624569521079424]
スパイキングニューロンは、作用電位を発射する決定を決定する計算単位として機能する。
この研究は、生物学的に可塑性でスケーラブルなスパイキングニューロンをハードウェアに実装するための方法論を示す。
より複雑なHodgkin-Huxleyモデルよりも、$I_Na,p+I_K$モデルを模倣したニューロンを設計することがより効率的であることを示す。
論文 参考訳(メタデータ) (2025-06-03T00:32:37Z) - No One-Size-Fits-All Neurons: Task-based Neurons for Artificial Neural Networks [25.30801109401654]
人間の脳はタスクベースのニューロンのユーザなので、人工ネットワークの設計はタスクベースのアーキテクチャ設計からタスクベースのニューロン設計に移行できるだろうか?
本稿では,タスクベースニューロンのプロトタイピングのための2段階のフレームワークを提案する。
実験により、提案されたタスクベースのニューロン設計は実現可能であるだけでなく、他の最先端モデルと競合する性能を提供することが示された。
論文 参考訳(メタデータ) (2024-05-03T09:12:46Z) - WaLiN-GUI: a graphical and auditory tool for neuron-based encoding [73.88751967207419]
ニューロモルフィックコンピューティングはスパイクベースのエネルギー効率の高い通信に依存している。
本研究では, スパイクトレインへのサンプルベースデータの符号化に適した構成を同定するツールを開発した。
WaLiN-GUIはオープンソースとドキュメントが提供されている。
論文 参考訳(メタデータ) (2023-10-25T20:34:08Z) - Sparse Autoencoders Find Highly Interpretable Features in Language
Models [0.0]
多意味性は、ニューラルネットワークが内部で何をしているのかについて、簡潔で理解しやすい説明を見つけるのを妨げます。
スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築する。
我々の手法は将来の機械的解釈可能性の基盤となるかもしれない。
論文 参考訳(メタデータ) (2023-09-15T17:56:55Z) - Neuron to Graph: Interpreting Language Model Neurons at Scale [8.32093320910416]
本稿では,大規模言語モデル内の多数のニューロンにまたがる解釈可能性手法のスケールアップを目的とした,新しい自動化手法を提案する。
我々は、トレーニングしたデータセットからニューロンの振る舞いを自動的に抽出し、解釈可能なグラフに変換する革新的なツールであるNeuron to Graph(N2G)を提案する。
論文 参考訳(メタデータ) (2023-05-31T14:44:33Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。