論文の概要: Sparse Autoencoders Find Highly Interpretable Features in Language
Models
- arxiv url: http://arxiv.org/abs/2309.08600v3
- Date: Wed, 4 Oct 2023 13:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 20:59:13.357116
- Title: Sparse Autoencoders Find Highly Interpretable Features in Language
Models
- Title(参考訳): スパースオートエンコーダは言語モデルで高い解釈可能な特徴を見つける
- Authors: Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey
- Abstract要約: 多意味性は、ニューラルネットワークが内部で何をしているのかについて、簡潔で理解しやすい説明を見つけるのを妨げます。
スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築する。
我々の手法は将来の機械的解釈可能性の基盤となるかもしれない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the roadblocks to a better understanding of neural networks' internals
is \textit{polysemanticity}, where neurons appear to activate in multiple,
semantically distinct contexts. Polysemanticity prevents us from identifying
concise, human-understandable explanations for what neural networks are doing
internally. One hypothesised cause of polysemanticity is
\textit{superposition}, where neural networks represent more features than they
have neurons by assigning features to an overcomplete set of directions in
activation space, rather than to individual neurons. Here, we attempt to
identify those directions, using sparse autoencoders to reconstruct the
internal activations of a language model. These autoencoders learn sets of
sparsely activating features that are more interpretable and monosemantic than
directions identified by alternative approaches, where interpretability is
measured by automated methods. Moreover, we show that with our learned set of
features, we can pinpoint the features that are causally responsible for
counterfactual behaviour on the indirect object identification task
\citep{wang2022interpretability} to a finer degree than previous
decompositions. This work indicates that it is possible to resolve
superposition in language models using a scalable, unsupervised method. Our
method may serve as a foundation for future mechanistic interpretability work,
which we hope will enable greater model transparency and steerability.
- Abstract(参考訳): ニューラルネットワークの内部をよりよく理解するための障害の1つは、複数の意味的に異なる文脈でニューロンが活性化しているように見える \textit{polysemanticity}である。
多義性は、ニューラルネットワークが内部で行っていることに関して、簡潔で理解可能な説明を識別することを妨げる。
多義性の原因の一つは \textit{superposition} であり、ニューラルネットワークはニューロンよりも多くの特徴を表現し、個々のニューロンではなく、活性化空間の方向の過剰な集合に特徴を割り当てる。
本稿では、スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築し、これらの方向を特定しようとする。
これらのオートエンコーダは、他の手法によって識別される方向よりも解釈可能で単意味な機能群を学習する。
さらに,学習した特徴集合を用いて,間接的対象識別タスク \citep{wang2022 interpretationability} の反事実行動に因果的に責任を持つ特徴を,従来よりも細かい程度に特定できることを示す。
本研究は,スケーラブルで教師なしの手法を用いて,言語モデルの重ね合わせを解決することができることを示す。
この手法は,今後の機械的な解釈作業の基礎となる可能性があり,モデルの透明性と操縦性の向上が期待できる。
関連論文リスト
- Identifying Interpretable Visual Features in Artificial and Biological
Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。
多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。
本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-17T17:41:28Z) - DISCOVER: Making Vision Networks Interpretable via Competition and
Dissection [11.028520416752325]
この研究は、ポストホック解釈可能性、特にネットワーク分割に寄与する。
私たちのゴールは、視覚タスクで訓練されたネットワークにおいて、各ニューロンの個々の機能を容易に発見できるフレームワークを提供することです。
論文 参考訳(メタデータ) (2023-10-07T21:57:23Z) - Towards Vision-Language Mechanistic Interpretability: A Causal Tracing
Tool for BLIP [27.51318030253248]
我々は、画像条件付きテキスト生成の基礎となる神経機構の研究を可能にするために、一方向因果追跡ツールをBLIPに適用した。
我々はBLIP因果追跡ツールをオープンソースとしてリリースし、視覚言語による機械的解釈のさらなる実験を可能にする。
論文 参考訳(メタデータ) (2023-08-27T18:46:47Z) - Adversarial Attacks on the Interpretation of Neuron Activation
Maximization [70.5472799454224]
アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。
本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
論文 参考訳(メタデータ) (2023-06-12T19:54:33Z) - Redundancy and Concept Analysis for Code-trained Language Models [5.726842555987591]
コード学習言語モデルは、様々なコードインテリジェンスタスクに非常に効果的であることが証明されている。
計算ボトルネックとメモリ制約のため、多くのソフトウェアエンジニアリングアプリケーションのトレーニングとデプロイが難しい場合がある。
我々は,ソースコードモデルに対する最初のニューロンレベルの解析を行い,潜在表現内でのテクスチエントニューロンの同定を行う。
論文 参考訳(メタデータ) (2023-05-01T15:22:41Z) - Seeking Interpretability and Explainability in Binary Activated Neural
Networks [3.341112547288814]
本稿では、回帰タスクの文脈において、解釈可能かつ説明可能な予測子としてバイナリ活性化ニューラルネットワークを用いることについて検討する。
本稿では,特徴量,隠れニューロン,さらには重みの相対的重要性を定量化するために,SHAP値の効率的な計算法を提案する。
論文 参考訳(メタデータ) (2022-09-07T20:11:17Z) - Emergence of Machine Language: Towards Symbolic Intelligence with Neural
Networks [73.94290462239061]
本稿では、ニューラルネットワークを用いてシンボルとコネクショナリズムの原理を組み合わせることで、離散表現を導出することを提案する。
対話型環境とタスクを設計することにより、機械が自発的で柔軟でセマンティックな言語を生成できることを実証した。
論文 参考訳(メタデータ) (2022-01-14T14:54:58Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。