論文の概要: Compositional Explanations of Neurons
- arxiv url: http://arxiv.org/abs/2006.14032v2
- Date: Tue, 2 Feb 2021 23:46:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 08:59:07.394483
- Title: Compositional Explanations of Neurons
- Title(参考訳): ニューロンの構成的説明
- Authors: Jesse Mu, Jacob Andreas
- Abstract要約: 本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
- 参考スコア(独自算出の注目度): 52.71742655312625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a procedure for explaining neurons in deep representations by
identifying compositional logical concepts that closely approximate neuron
behavior. Compared to prior work that uses atomic labels as explanations,
analyzing neurons compositionally allows us to more precisely and expressively
characterize their behavior. We use this procedure to answer several questions
on interpretability in models for vision and natural language processing.
First, we examine the kinds of abstractions learned by neurons. In image
classification, we find that many neurons learn highly abstract but
semantically coherent visual concepts, while other polysemantic neurons detect
multiple unrelated features; in natural language inference (NLI), neurons learn
shallow lexical heuristics from dataset biases. Second, we see whether
compositional explanations give us insight into model performance: vision
neurons that detect human-interpretable concepts are positively correlated with
task performance, while NLI neurons that fire for shallow heuristics are
negatively correlated with task performance. Finally, we show how compositional
explanations provide an accessible way for end users to produce simple
"copy-paste" adversarial examples that change model behavior in predictable
ways.
- Abstract(参考訳): 本稿では,ニューロンの挙動を近似した構成論理的概念を同定し,深部表現におけるニューロンの説明手法について述べる。
原子ラベルを説明として使用する以前の研究と比較すると、ニューロンを合成分析することで、より正確に表現的にその行動を特徴付けることができる。
視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの質問に答えるためにこの手順を用いる。
まず,ニューロンが学習する抽象化の種類について検討する。
画像分類では、多くのニューロンが高度に抽象的だがセマンティック・コヒーレントな視覚概念を学習しているのに対し、他のポリセマンティックニューロンは複数の無関係な特徴を検知している。
第2に,人間の解釈可能な概念を検出する視覚ニューロンはタスク性能と正の相関を示す一方,浅いヒューリスティックスのために発火するNLIニューロンはタスク性能と負の相関を示す。
最後に、構成説明が、エンドユーザーがモデル動作を予測可能な方法で変更する単純な「コピーペースト」攻撃例を作成するための、アクセス可能な方法を提供する方法を示す。
関連論文リスト
- Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - Investigating the Encoding of Words in BERT's Neurons using Feature
Textualization [11.943486282441143]
本稿では,埋め込み語空間におけるニューロンの表現を生成する手法を提案する。
生成した表現は、個々のニューロンにおける符号化された知識についての洞察を与えることができる。
論文 参考訳(メタデータ) (2023-11-14T15:21:49Z) - Identifying Interpretable Visual Features in Artificial and Biological
Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。
多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。
本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-17T17:41:28Z) - Neuron to Graph: Interpreting Language Model Neurons at Scale [8.32093320910416]
本稿では,大規模言語モデル内の多数のニューロンにまたがる解釈可能性手法のスケールアップを目的とした,新しい自動化手法を提案する。
我々は、トレーニングしたデータセットからニューロンの振る舞いを自動的に抽出し、解釈可能なグラフに変換する革新的なツールであるNeuron to Graph(N2G)を提案する。
論文 参考訳(メタデータ) (2023-05-31T14:44:33Z) - Disentangling Neuron Representations with Concept Vectors [0.0]
本研究の主な貢献は, 異なる特徴をカプセル化した概念ベクトルに多面体ニューロンをアンタングル化する手法である。
評価の結果,概念ベクトルはコヒーレントで人間に理解可能な特徴をエンコードしていることがわかった。
論文 参考訳(メタデータ) (2023-04-19T14:55:31Z) - Natural Language Descriptions of Deep Visual Features [50.270035018478666]
オープンエンド,コンポジション,自然言語による記述で自動的にニューロンをラベル付けする手法を提案する。
我々はMILANを用いて、視覚モデルにおける属性、カテゴリ、関係情報を選択的に選択したニューロンの分布と重要性を特徴付ける。
また、これらの特徴を曖昧にすることを目的としたデータセットでトレーニングされたモデルにおいて、人種や性別といった保護されたカテゴリに敏感な、監査用のMILANも使用しています。
論文 参考訳(メタデータ) (2022-01-26T18:48:02Z) - Emergence of Machine Language: Towards Symbolic Intelligence with Neural
Networks [73.94290462239061]
本稿では、ニューラルネットワークを用いてシンボルとコネクショナリズムの原理を組み合わせることで、離散表現を導出することを提案する。
対話型環境とタスクを設計することにより、機械が自発的で柔軟でセマンティックな言語を生成できることを実証した。
論文 参考訳(メタデータ) (2022-01-14T14:54:58Z) - Drop, Swap, and Generate: A Self-Supervised Approach for Generating
Neural Activity [33.06823702945747]
我々はSwap-VAEと呼ばれる神経活動の不整合表現を学習するための新しい教師なしアプローチを導入する。
このアプローチは、生成モデリングフレームワークとインスタンス固有のアライメント損失を組み合わせたものです。
我々は、行動に関連付けられた関連する潜在次元に沿って、ニューラルネットワークをアンタングルする表現を構築することが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-03T16:39:43Z) - Compositional Processing Emerges in Neural Networks Solving Math
Problems [100.80518350845668]
人工知能の最近の進歩は、大きなモデルが十分な言語データに基づいて訓練されると、文法構造が表現に現れることを示している。
我々は、この研究を数学的推論の領域にまで拡張し、どのように意味を構成するべきかについての正確な仮説を定式化することができる。
私たちの研究は、ニューラルネットワークがトレーニングデータに暗黙的に構造化された関係について何かを推測できるだけでなく、個々の意味の合成を合成全体へと導くために、この知識を展開できることを示している。
論文 参考訳(メタデータ) (2021-05-19T07:24:42Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。