Fugu-MT 論文翻訳(概要): Sparse Autoencoders Find Highly Interpretable Features in Language Models

論文の概要: Sparse Autoencoders Find Highly Interpretable Features in Language Models

arxiv url: http://arxiv.org/abs/2309.08600v3
Date: Wed, 4 Oct 2023 13:17:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 20:59:13.357116
Title: Sparse Autoencoders Find Highly Interpretable Features in Language Models
Title（参考訳）: スパースオートエンコーダは言語モデルで高い解釈可能な特徴を見つける
Authors: Hoagy Cunningham, Aidan Ewart, Logan Riggs, Robert Huben, Lee Sharkey
Abstract要約: 多意味性は、ニューラルネットワークが内部で何をしているのかについて、簡潔で理解しやすい説明を見つけるのを妨げます。スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築する。我々の手法は将来の機械的解釈可能性の基盤となるかもしれない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: One of the roadblocks to a better understanding of neural networks' internals is \textit{polysemanticity}, where neurons appear to activate in multiple, semantically distinct contexts. Polysemanticity prevents us from identifying concise, human-understandable explanations for what neural networks are doing internally. One hypothesised cause of polysemanticity is \textit{superposition}, where neural networks represent more features than they have neurons by assigning features to an overcomplete set of directions in activation space, rather than to individual neurons. Here, we attempt to identify those directions, using sparse autoencoders to reconstruct the internal activations of a language model. These autoencoders learn sets of sparsely activating features that are more interpretable and monosemantic than directions identified by alternative approaches, where interpretability is measured by automated methods. Moreover, we show that with our learned set of features, we can pinpoint the features that are causally responsible for counterfactual behaviour on the indirect object identification task \citep{wang2022interpretability} to a finer degree than previous decompositions. This work indicates that it is possible to resolve superposition in language models using a scalable, unsupervised method. Our method may serve as a foundation for future mechanistic interpretability work, which we hope will enable greater model transparency and steerability.
Abstract（参考訳）: ニューラルネットワークの内部をよりよく理解するための障害の1つは、複数の意味的に異なる文脈でニューロンが活性化しているように見える \textit{polysemanticity}である。多義性は、ニューラルネットワークが内部で行っていることに関して、簡潔で理解可能な説明を識別することを妨げる。多義性の原因の一つは \textit{superposition} であり、ニューラルネットワークはニューロンよりも多くの特徴を表現し、個々のニューロンではなく、活性化空間の方向の過剰な集合に特徴を割り当てる。本稿では、スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築し、これらの方向を特定しようとする。これらのオートエンコーダは、他の手法によって識別される方向よりも解釈可能で単意味な機能群を学習する。さらに,学習した特徴集合を用いて,間接的対象識別タスク \citep{wang2022 interpretationability} の反事実行動に因果的に責任を持つ特徴を,従来よりも細かい程度に特定できることを示す。本研究は,スケーラブルで教師なしの手法を用いて,言語モデルの重ね合わせを解決することができることを示す。この手法は,今後の機械的な解釈作業の基礎となる可能性があり,モデルの透明性と操縦性の向上が期待できる。

関連論文リスト

Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文参考訳（メタデータ） (2025-05-16T13:49:43Z)
Emergent Symbol-like Number Variables in Artificial Neural Networks [34.388552536773034]
単純化されたシンボリックアルゴリズム(SA)のレンズを用いて生のNN活性を解釈できることが示される。我々はDASフレームワークをより広範なアライメント関数のクラスに拡張し、SAからの解釈可能な変数の観点からNNアクティビティをより柔軟にキャプチャする。繰り返しモデルでは, 神経活動において, 次数的, 記号的数変数が生成できることが示されている。
論文参考訳（メタデータ） (2025-01-10T18:03:46Z)
Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。 SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文参考訳（メタデータ） (2024-10-17T17:56:01Z)
Using Degeneracy in the Loss Landscape for Mechanistic Interpretability [0.0]
機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークによって実装されたアルゴリズムを、その重みとアクティベーションを研究することによってリバースエンジニアリングすることを目的としている。逆エンジニアリングニューラルネットワークの障害は、ネットワーク内の多くのパラメータが、ネットワークによって実装されている計算に関与していないことである。
論文参考訳（メタデータ） (2024-05-17T17:26:33Z)
Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。記号の配置に非依存であり、それによって表現される意味論にのみ依存する。識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文参考訳（メタデータ） (2024-05-12T22:18:25Z)
Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文参考訳（メタデータ） (2024-03-28T17:56:07Z)
Identifying Interpretable Visual Features in Artificial and Biological Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文参考訳（メタデータ） (2023-10-17T17:41:28Z)
DISCOVER: Making Vision Networks Interpretable via Competition and Dissection [11.028520416752325]
この研究は、ポストホック解釈可能性、特にネットワーク分割に寄与する。私たちのゴールは、視覚タスクで訓練されたネットワークにおいて、各ニューロンの個々の機能を容易に発見できるフレームワークを提供することです。
論文参考訳（メタデータ） (2023-10-07T21:57:23Z)
Adversarial Attacks on the Interpretation of Neuron Activation Maximization [70.5472799454224]
アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
論文参考訳（メタデータ） (2023-06-12T19:54:33Z)
Emergence of Machine Language: Towards Symbolic Intelligence with Neural Networks [73.94290462239061]
本稿では、ニューラルネットワークを用いてシンボルとコネクショナリズムの原理を組み合わせることで、離散表現を導出することを提案する。対話型環境とタスクを設計することにより、機械が自発的で柔軟でセマンティックな言語を生成できることを実証した。
論文参考訳（メタデータ） (2022-01-14T14:54:58Z)
Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文参考訳（メタデータ） (2021-10-12T23:22:45Z)
Low-Dimensional Structure in the Space of Language Representations is Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-06-09T22:59:12Z)
Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文参考訳（メタデータ） (2020-06-24T20:37:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。