論文の概要: PURE: Turning Polysemantic Neurons Into Pure Features by Identifying Relevant Circuits
- arxiv url: http://arxiv.org/abs/2404.06453v1
- Date: Tue, 9 Apr 2024 16:54:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 13:51:47.791957
- Title: PURE: Turning Polysemantic Neurons Into Pure Features by Identifying Relevant Circuits
- Title(参考訳): PURE: 関連回路の同定によるポリセマンティックニューロンの純粋特徴化
- Authors: Maximilian Dreyer, Erblina Purelku, Johanna Vielhaben, Wojciech Samek, Sebastian Lapuschkin,
- Abstract要約: 本稿では、複数の単意味「仮想」ニューロンにポリセマンティックニューロンを分解することで、あらゆるディープニューラルネットワークのポリセマンティック性を遠ざける方法を提案する。
私たちは、ImageNetでトレーニングされたResNetモデルの多意味ユニットを、どのように見つけ、切り離すことができるかを示します。
- 参考スコア(独自算出の注目度): 12.17671779091913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of mechanistic interpretability aims to study the role of individual neurons in Deep Neural Networks. Single neurons, however, have the capability to act polysemantically and encode for multiple (unrelated) features, which renders their interpretation difficult. We present a method for disentangling polysemanticity of any Deep Neural Network by decomposing a polysemantic neuron into multiple monosemantic "virtual" neurons. This is achieved by identifying the relevant sub-graph ("circuit") for each "pure" feature. We demonstrate how our approach allows us to find and disentangle various polysemantic units of ResNet models trained on ImageNet. While evaluating feature visualizations using CLIP, our method effectively disentangles representations, improving upon methods based on neuron activations. Our code is available at https://github.com/maxdreyer/PURE.
- Abstract(参考訳): 機械論的解釈の分野は、ディープニューラルネットワークにおける個々のニューロンの役割を研究することを目的としている。
しかし、単一ニューロンはポリセマンティックに作用し、複数の(非関連)特徴をエンコードする能力を持つため、解釈は困難である。
本稿では、複数の単意味「仮想」ニューロンにポリセマンティックニューロンを分解することで、あらゆるディープニューラルネットワークのポリセマンティック性を遠ざける方法を提案する。
これは、各「純粋な」特徴について関連するサブグラフ(「回路」)を識別することで達成される。
私たちは、ImageNetでトレーニングされたResNetモデルの多意味ユニットを、どのように見つけ、切り離すことができるかを示します。
CLIPを用いた特徴可視化の評価において,提案手法は表現を効果的に切り離し,ニューロンの活性化に基づく手法の改良を行う。
私たちのコードはhttps://github.com/maxdreyer/PUREで公開されています。
関連論文リスト
- Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Identifying Interpretable Visual Features in Artificial and Biological
Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。
多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。
本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-17T17:41:28Z) - Sparse Autoencoders Find Highly Interpretable Features in Language
Models [0.0]
多意味性は、ニューラルネットワークが内部で何をしているのかについて、簡潔で理解しやすい説明を見つけるのを妨げます。
スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築する。
我々の手法は将来の機械的解釈可能性の基盤となるかもしれない。
論文 参考訳(メタデータ) (2023-09-15T17:56:55Z) - Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。
隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。
実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:52:38Z) - Interpreting Neural Networks through the Polytope Lens [0.2359380460160535]
機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークがナッツ・アンド・ボルトレベルで学んだことを説明することを目的としている。
我々は、活性化空間を多くの離散ポリトープに分割する方法について検討する。
ポリトープレンズはニューラルネットワークの挙動を具体的に予測する。
論文 参考訳(メタデータ) (2022-11-22T15:03:48Z) - Open- and Closed-Loop Neural Network Verification using Polynomial
Zonotopes [6.591194329459251]
本稿では, 密接な非接触活性化関数を効率的に計算するための新しい手法を提案する。
特に,各ニューロンの入力出力関係を近似を用いて評価する。
その結果、他の手法よりも優れた性能が得られる。
論文 参考訳(メタデータ) (2022-07-06T14:39:19Z) - Deep Polynomial Neural Networks [77.70761658507507]
$Pi$Netsは拡張に基づいた関数近似の新しいクラスである。
$Pi$Netsは、画像生成、顔検証、および3Dメッシュ表現学習という3つの困難なタスクで、最先端の結果を生成する。
論文 参考訳(メタデータ) (2020-06-20T16:23:32Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。