論文の概要: Disentangling Neuron Representations with Concept Vectors
- arxiv url: http://arxiv.org/abs/2304.09707v1
- Date: Wed, 19 Apr 2023 14:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 14:03:46.555136
- Title: Disentangling Neuron Representations with Concept Vectors
- Title(参考訳): 概念ベクトルによるニューロン表現の分離
- Authors: Laura O'Mahony, Vincent Andrearczyk, Henning Muller, Mara Graziani
- Abstract要約: 本研究の主な貢献は, 異なる特徴をカプセル化した概念ベクトルに多面体ニューロンをアンタングル化する手法である。
評価の結果,概念ベクトルはコヒーレントで人間に理解可能な特徴をエンコードしていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability aims to understand how models store
representations by breaking down neural networks into interpretable units.
However, the occurrence of polysemantic neurons, or neurons that respond to
multiple unrelated features, makes interpreting individual neurons challenging.
This has led to the search for meaningful vectors, known as concept vectors, in
activation space instead of individual neurons. The main contribution of this
paper is a method to disentangle polysemantic neurons into concept vectors
encapsulating distinct features. Our method can search for fine-grained
concepts according to the user's desired level of concept separation. The
analysis shows that polysemantic neurons can be disentangled into directions
consisting of linear combinations of neurons. Our evaluations show that the
concept vectors found encode coherent, human-understandable features.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークを解釈可能な単位に分解することで、モデルが表現を格納する方法を理解することを目的としている。
しかし、複数の無関係な特徴に反応する多核ニューロン、またはニューロンの発生は、個々のニューロンの解釈を困難にする。
これにより、個々のニューロンではなく、活性化空間における概念ベクトル(concept vector)と呼ばれる意味のあるベクトルの探索に繋がる。
本研究の主な貢献は、異なる特徴をカプセル化した概念ベクトルに多面体ニューロンをアンタングルする方法である。
提案手法は,ユーザの希望する概念分離レベルに応じて,きめ細かい概念を探索することができる。
解析により、多節性ニューロンは、線形結合からなる方向へと切り離すことができることが示された。
評価の結果,概念ベクトルはコヒーレントで人間に理解可能な特徴をエンコードしていることがわかった。
関連論文リスト
- ConceptLens: from Pixels to Understanding [1.3466710708566176]
ConceptLensは、隠れたニューロンの活性化を可視化することによって、ディープニューラルネットワーク(DNN)の複雑な動作を照明する革新的なツールである。
ディープラーニングとシンボリックな方法を統合することで、ConceptLensは、ニューロンの活性化を引き起こすものを理解するユニークな方法を提供する。
論文 参考訳(メタデータ) (2024-10-04T20:49:12Z) - Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Identifying Interpretable Visual Features in Artificial and Biological
Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。
多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。
本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-17T17:41:28Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Cones: Concept Neurons in Diffusion Models for Customized Generation [41.212255848052514]
本稿では,特定の対象に対応する拡散モデルにおいて,ニューロンの小さな集合を見出す。
概念ニューロンは、生成結果の解釈と操作において磁気特性を示す。
大規模な応用においては、ニューロンは環境に優しいため、密度の高いfloat32値ではなく、sparseクラスタのintインデックスを格納するだけである。
論文 参考訳(メタデータ) (2023-03-09T09:16:04Z) - Constraints on the design of neuromorphic circuits set by the properties
of neural population codes [61.15277741147157]
脳内では、情報はコード化され、伝達され、行動を伝えるために使用される。
ニューロモルフィック回路は、脳内のニューロンの集団が使用するものと互換性のある方法で情報を符号化する必要がある。
論文 参考訳(メタデータ) (2022-12-08T15:16:04Z) - NeuroCartography: Scalable Automatic Visual Summarization of Concepts in
Deep Neural Networks [18.62960153659548]
NeuroCartographyは、ニューラルネットワークで学んだ概念を要約し視覚化するインタラクティブシステムである。
同じ概念を検知するニューロンを自動的に発見し、グループ化する。
このようなニューロン群がどのように相互作用し、より高いレベルの概念とその後の予測を形成するかを記述する。
論文 参考訳(メタデータ) (2021-08-29T22:43:52Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。