Fugu-MT 論文翻訳(概要): Disentangling Neuron Representations with Concept Vectors

論文の概要: Disentangling Neuron Representations with Concept Vectors

arxiv url: http://arxiv.org/abs/2304.09707v1
Date: Wed, 19 Apr 2023 14:55:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-20 14:03:46.555136
Title: Disentangling Neuron Representations with Concept Vectors
Title（参考訳）: 概念ベクトルによるニューロン表現の分離
Authors: Laura O'Mahony, Vincent Andrearczyk, Henning Muller, Mara Graziani
Abstract要約: 本研究の主な貢献は, 異なる特徴をカプセル化した概念ベクトルに多面体ニューロンをアンタングル化する手法である。評価の結果,概念ベクトルはコヒーレントで人間に理解可能な特徴をエンコードしていることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mechanistic interpretability aims to understand how models store representations by breaking down neural networks into interpretable units. However, the occurrence of polysemantic neurons, or neurons that respond to multiple unrelated features, makes interpreting individual neurons challenging. This has led to the search for meaningful vectors, known as concept vectors, in activation space instead of individual neurons. The main contribution of this paper is a method to disentangle polysemantic neurons into concept vectors encapsulating distinct features. Our method can search for fine-grained concepts according to the user's desired level of concept separation. The analysis shows that polysemantic neurons can be disentangled into directions consisting of linear combinations of neurons. Our evaluations show that the concept vectors found encode coherent, human-understandable features.
Abstract（参考訳）: 機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークを解釈可能な単位に分解することで、モデルが表現を格納する方法を理解することを目的としている。しかし、複数の無関係な特徴に反応する多核ニューロン、またはニューロンの発生は、個々のニューロンの解釈を困難にする。これにより、個々のニューロンではなく、活性化空間における概念ベクトル(concept vector)と呼ばれる意味のあるベクトルの探索に繋がる。本研究の主な貢献は、異なる特徴をカプセル化した概念ベクトルに多面体ニューロンをアンタングルする方法である。提案手法は,ユーザの希望する概念分離レベルに応じて,きめ細かい概念を探索することができる。解析により、多節性ニューロンは、線形結合からなる方向へと切り離すことができることが示された。評価の結果,概念ベクトルはコヒーレントで人間に理解可能な特徴をエンコードしていることがわかった。

関連論文リスト

Understanding Gated Neurons in Transformers from Their Input-Output Functionality [48.91500104957796]
ニューロンの入力重みと出力重みのコサイン類似性について検討する。初期中間層ではエンリッチメントニューロンが支配的であり,後期層では枯渇傾向が見られた。
論文参考訳（メタデータ） (2025-05-23T14:14:17Z)
Explaining Neural Networks with Reasons [0.0]
我々の手法は、それぞれのニューロンのベクトルを計算し、その原因ベクトルと呼ばれる。すると、この理由がベクトルが様々な命題(例えば、入力画像が桁2を描いているという命題や入力プロンプトが負の感情を持っているという命題)に対してどれだけ強く話すかを計算することができる。
論文参考訳（メタデータ） (2025-05-20T14:32:03Z)
Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文参考訳（メタデータ） (2025-05-16T13:49:43Z)
Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文参考訳（メタデータ） (2025-02-03T20:30:46Z)
ConceptLens: from Pixels to Understanding [1.3466710708566176]
ConceptLensは、隠れたニューロンの活性化を可視化することによって、ディープニューラルネットワーク(DNN)の複雑な動作を照明する革新的なツールである。ディープラーニングとシンボリックな方法を統合することで、ConceptLensは、ニューロンの活性化を引き起こすものを理解するユニークな方法を提供する。
論文参考訳（メタデータ） (2024-10-04T20:49:12Z)
Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文参考訳（メタデータ） (2024-06-06T17:59:52Z)
Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文参考訳（メタデータ） (2024-01-11T18:57:17Z)
Identifying Interpretable Visual Features in Artificial and Biological Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文参考訳（メタデータ） (2023-10-17T17:41:28Z)
Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文参考訳（メタデータ） (2023-08-03T05:27:12Z)
A Recursive Bateson-Inspired Model for the Generation of Semantic Formal Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文参考訳（メタデータ） (2023-07-16T15:59:13Z)
Cones: Concept Neurons in Diffusion Models for Customized Generation [41.212255848052514]
本稿では,特定の対象に対応する拡散モデルにおいて,ニューロンの小さな集合を見出す。概念ニューロンは、生成結果の解釈と操作において磁気特性を示す。大規模な応用においては、ニューロンは環境に優しいため、密度の高いfloat32値ではなく、sparseクラスタのintインデックスを格納するだけである。
論文参考訳（メタデータ） (2023-03-09T09:16:04Z)
Constraints on the design of neuromorphic circuits set by the properties of neural population codes [61.15277741147157]
脳内では、情報はコード化され、伝達され、行動を伝えるために使用される。ニューロモルフィック回路は、脳内のニューロンの集団が使用するものと互換性のある方法で情報を符号化する必要がある。
論文参考訳（メタデータ） (2022-12-08T15:16:04Z)
NeuroCartography: Scalable Automatic Visual Summarization of Concepts in Deep Neural Networks [18.62960153659548]
NeuroCartographyは、ニューラルネットワークで学んだ概念を要約し視覚化するインタラクティブシステムである。同じ概念を検知するニューロンを自動的に発見し、グループ化する。このようなニューロン群がどのように相互作用し、より高いレベルの概念とその後の予測を形成するかを記述する。
論文参考訳（メタデータ） (2021-08-29T22:43:52Z)
Neuron-based explanations of neural networks sacrifice completeness and interpretability [67.53271920386851]
我々は、ImageNetで事前訓練されたAlexNetに対して、ニューロンに基づく説明法が完全性と解釈可能性の両方を犠牲にすることを示す。我々は、最も重要な主成分が、最も重要なニューロンよりも完全で解釈可能な説明を提供することを示す。この結果から,AlexNet などのネットワークに対する説明手法は,ニューロンを埋め込みの基盤として使用するべきではないことが示唆された。
論文参考訳（メタデータ） (2020-11-05T21:26:03Z)
Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文参考訳（メタデータ） (2020-06-24T20:37:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。