論文の概要: Sparse Autoencoders Find Highly Interpretable Features in Language
Models
- arxiv url: http://arxiv.org/abs/2309.08600v1
- Date: Fri, 15 Sep 2023 17:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 13:23:26.223728
- Title: Sparse Autoencoders Find Highly Interpretable Features in Language
Models
- Title(参考訳): スパースオートエンコーダは言語モデルで高い解釈可能な特徴を見つける
- Authors: Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey
- Abstract要約: 多意味性は、ニューラルネットワークが内部で何をしているのかについて、簡潔で理解しやすい説明を見つけるのを妨げます。
スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築する。
この研究は、スケーラブルで教師なしの手法を用いて、言語モデルにおける重ね合わせを解決することが可能であることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the roadblocks to a better understanding of neural networks' internals
is \textit{polysemanticity}, where neurons appear to activate in multiple,
semantically distinct contexts. Polysemanticity prevents us from identifying
concise, human-understandable explanations for what neural networks are doing
internally. One hypothesised cause of polysemanticity is
\textit{superposition}, where neural networks represent more features than they
have neurons by assigning features to an overcomplete set of directions in
activation space, rather than to individual neurons. Here, we attempt to
identify those directions, using sparse autoencoders to reconstruct the
internal activations of a language model. These autoencoders learn sets of
sparsely activating features that are more interpretable and monosemantic than
directions identified by alternative approaches, where interpretability is
measured by automated methods. Ablating these features enables precise model
editing, for example, by removing capabilities such as pronoun prediction,
while disrupting model behaviour less than prior techniques. This work
indicates that it is possible to resolve superposition in language models using
a scalable, unsupervised method. Our method may serve as a foundation for
future mechanistic interpretability work, which we hope will enable greater
model transparency and steerability.
- Abstract(参考訳): ニューラルネットワークの内部をよりよく理解するための障害の1つは、複数の意味的に異なる文脈でニューロンが活性化しているように見える \textit{polysemanticity}である。
多義性は、ニューラルネットワークが内部で行っていることに関して、簡潔で理解可能な説明を識別することを妨げる。
多義性の原因の一つは \textit{superposition} であり、ニューラルネットワークはニューロンよりも多くの特徴を表現し、個々のニューロンではなく、活性化空間の方向の過剰な集合に特徴を割り当てる。
本稿では、スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築し、これらの方向を特定しようとする。
これらのオートエンコーダは、他の手法によって識別される方向よりも解釈可能で単意味な機能群を学習する。
これらの特徴を損なうことで、例えば代名詞予測などの機能を排除し、モデルの振る舞いを以前の技術より破壊することで、正確なモデル編集が可能になる。
本研究は,スケーラブルで教師なしの手法を用いて,言語モデルの重ね合わせを解決することができることを示す。
この手法は,今後の機械的な解釈作業の基礎となる可能性があり,モデルの透明性と操縦性の向上が期待できる。
関連論文リスト
- Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - Using Degeneracy in the Loss Landscape for Mechanistic Interpretability [0.0]
機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークによって実装されたアルゴリズムを、その重みとアクティベーションを研究することによってリバースエンジニアリングすることを目的としている。
逆エンジニアリングニューラルネットワークの障害は、ネットワーク内の多くのパラメータが、ネットワークによって実装されている計算に関与していないことである。
論文 参考訳(メタデータ) (2024-05-17T17:26:33Z) - Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。
記号の配置に非依存であり、それによって表現される意味論にのみ依存する。
識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文 参考訳(メタデータ) (2024-05-12T22:18:25Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Identifying Interpretable Visual Features in Artificial and Biological
Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。
多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。
本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-17T17:41:28Z) - DISCOVER: Making Vision Networks Interpretable via Competition and
Dissection [11.028520416752325]
この研究は、ポストホック解釈可能性、特にネットワーク分割に寄与する。
私たちのゴールは、視覚タスクで訓練されたネットワークにおいて、各ニューロンの個々の機能を容易に発見できるフレームワークを提供することです。
論文 参考訳(メタデータ) (2023-10-07T21:57:23Z) - Emergence of Machine Language: Towards Symbolic Intelligence with Neural
Networks [73.94290462239061]
本稿では、ニューラルネットワークを用いてシンボルとコネクショナリズムの原理を組み合わせることで、離散表現を導出することを提案する。
対話型環境とタスクを設計することにより、機械が自発的で柔軟でセマンティックな言語を生成できることを実証した。
論文 参考訳(メタデータ) (2022-01-14T14:54:58Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。