論文の概要: Interpreting Neural Networks through the Polytope Lens
- arxiv url: http://arxiv.org/abs/2211.12312v1
- Date: Tue, 22 Nov 2022 15:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:00:11.335040
- Title: Interpreting Neural Networks through the Polytope Lens
- Title(参考訳): ポリトープレンズによるニューラルネットワークの解釈
- Authors: Sid Black, Lee Sharkey, Leo Grinsztajn, Eric Winsor, Dan Braun, Jacob
Merizian, Kip Parker, Carlos Ram\'on Guevara, Beren Millidge, Gabriel Alfour,
Connor Leahy
- Abstract要約: 機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークがナッツ・アンド・ボルトレベルで学んだことを説明することを目的としている。
我々は、活性化空間を多くの離散ポリトープに分割する方法について検討する。
ポリトープレンズはニューラルネットワークの挙動を具体的に予測する。
- 参考スコア(独自算出の注目度): 0.2359380460160535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mechanistic interpretability aims to explain what a neural network has
learned at a nuts-and-bolts level. What are the fundamental primitives of
neural network representations? Previous mechanistic descriptions have used
individual neurons or their linear combinations to understand the
representations a network has learned. But there are clues that neurons and
their linear combinations are not the correct fundamental units of description:
directions cannot describe how neural networks use nonlinearities to structure
their representations. Moreover, many instances of individual neurons and their
combinations are polysemantic (i.e. they have multiple unrelated meanings).
Polysemanticity makes interpreting the network in terms of neurons or
directions challenging since we can no longer assign a specific feature to a
neural unit. In order to find a basic unit of description that does not suffer
from these problems, we zoom in beyond just directions to study the way that
piecewise linear activation functions (such as ReLU) partition the activation
space into numerous discrete polytopes. We call this perspective the polytope
lens. The polytope lens makes concrete predictions about the behavior of neural
networks, which we evaluate through experiments on both convolutional image
classifiers and language models. Specifically, we show that polytopes can be
used to identify monosemantic regions of activation space (while directions are
not in general monosemantic) and that the density of polytope boundaries
reflect semantic boundaries. We also outline a vision for what mechanistic
interpretability might look like through the polytope lens.
- Abstract(参考訳): 機械的な解釈は、ニューラルネットワークがナッツ・アンド・ボルトレベルで学んだことを説明することを目的としている。
ニューラルネットワーク表現の基本的なプリミティブは何ですか?
以前のメカニックな記述では、ネットワークが学習した表現を理解するために、個々のニューロンまたはそれらの線形結合を用いた。
しかし、ニューロンとその線形結合が記述の正しい基本単位ではないという手がかりがある: 方向付けは、ニューラルネットワークが表現を構造化するためにどのように非線形を使用するかを記述できない。
さらに、個々のニューロンとその組み合わせの多くの例は多意味(つまり複数の無関係な意味を持つ)である。
多義性は、神経ユニットに特定の特徴を割り当てることができないため、ニューロンや方向の観点でネットワークの解釈を困難にする。
これらの問題に支障を来さない記述の基本的な単位を見つけるために、単に方向を拡大して、(ReLUのような)断片的に線形な活性化関数が活性化空間を多くの離散ポリトープに分割する方法を研究する。
この視点をポリトープレンズと呼んでいます
ポリトープレンズはニューラルネットワークの挙動を具体的に予測し、畳み込み画像分類器と言語モデルの両方の実験を通して評価する。
具体的には、ポリトープは活性化空間の単意味領域(方向は一般に単意味的ではないが)を識別するのに使用でき、ポリトープ境界の密度は意味境界を反映していることを示す。
我々はまた、ポリトープレンズを通して機械的解釈可能性がどのように見えるかというビジョンを概説する。
関連論文リスト
- Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - PURE: Turning Polysemantic Neurons Into Pure Features by Identifying Relevant Circuits [12.17671779091913]
本稿では、複数の単意味「仮想」ニューロンにポリセマンティックニューロンを分解することで、あらゆるディープニューラルネットワークのポリセマンティック性を遠ざける方法を提案する。
私たちは、ImageNetでトレーニングされたResNetモデルの多意味ユニットを、どのように見つけ、切り離すことができるかを示します。
論文 参考訳(メタデータ) (2024-04-09T16:54:19Z) - What Causes Polysemanticity? An Alternative Origin Story of Mixed
Selectivity from Incidental Causes [14.623741848860037]
一連の無関係な特徴を活性化するポリセマンティックニューロンは、タスク最適化されたディープネットワークの解釈可能性に対する重要な障害と見なされている。
データ内のすべての特徴を表現できるニューロンが多数存在する場合でも、多義性は偶発的に起こる可能性があることを示す。
論文 参考訳(メタデータ) (2023-12-05T19:29:54Z) - Identifying Interpretable Visual Features in Artificial and Biological
Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。
多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。
本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-17T17:41:28Z) - Sparse Autoencoders Find Highly Interpretable Features in Language
Models [0.0]
多意味性は、ニューラルネットワークが内部で何をしているのかについて、簡潔で理解しやすい説明を見つけるのを妨げます。
スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築する。
我々の手法は将来の機械的解釈可能性の基盤となるかもしれない。
論文 参考訳(メタデータ) (2023-09-15T17:56:55Z) - Disentangling Neuron Representations with Concept Vectors [0.0]
本研究の主な貢献は, 異なる特徴をカプセル化した概念ベクトルに多面体ニューロンをアンタングル化する手法である。
評価の結果,概念ベクトルはコヒーレントで人間に理解可能な特徴をエンコードしていることがわかった。
論文 参考訳(メタデータ) (2023-04-19T14:55:31Z) - Natural Language Descriptions of Deep Visual Features [50.270035018478666]
オープンエンド,コンポジション,自然言語による記述で自動的にニューロンをラベル付けする手法を提案する。
我々はMILANを用いて、視覚モデルにおける属性、カテゴリ、関係情報を選択的に選択したニューロンの分布と重要性を特徴付ける。
また、これらの特徴を曖昧にすることを目的としたデータセットでトレーニングされたモデルにおいて、人種や性別といった保護されたカテゴリに敏感な、監査用のMILANも使用しています。
論文 参考訳(メタデータ) (2022-01-26T18:48:02Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - Deep Polynomial Neural Networks [77.70761658507507]
$Pi$Netsは拡張に基づいた関数近似の新しいクラスである。
$Pi$Netsは、画像生成、顔検証、および3Dメッシュ表現学習という3つの困難なタスクで、最先端の結果を生成する。
論文 参考訳(メタデータ) (2020-06-20T16:23:32Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。