論文の概要: Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution
- arxiv url: http://arxiv.org/abs/2502.06809v2
- Date: Wed, 21 May 2025 03:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:57.509391
- Title: Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution
- Title(参考訳): ニューロンは距離で話す:離散的な神経細胞の属性から解放される
- Authors: Muhammad Umair Haider, Hammad Rizwan, Hassan Sajjad, Peizhong Ju, A. B. Siddique,
- Abstract要約: 高度に正常なニューロンでも,多節性行動が持続的に発現していることが示される。
この観察は、ニューロンの属性からレンジベースの解釈へのシフトを動機付けている。
本稿では,新しいレンジベースの解釈・操作フレームワークであるNeuronLensを紹介する。
- 参考スコア(独自算出の注目度): 16.460751105639623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpreting the internal mechanisms of large language models (LLMs) is crucial for improving their trustworthiness and utility. Prior work has primarily focused on mapping individual neurons to discrete semantic concepts. However, such mappings struggle to handle the inherent polysemanticity in LLMs, where individual neurons encode multiple, distinct concepts. Through a comprehensive analysis of both encoder and decoder-based LLMs across diverse datasets, we observe that even highly salient neurons, identified via various attribution techniques for specific semantic concepts, consistently exhibit polysemantic behavior. Importantly, activation magnitudes for fine-grained concepts follow distinct, often Gaussian-like distributions with minimal overlap. This observation motivates a shift from neuron attribution to range-based interpretation. We hypothesize that interpreting and manipulating neuron activation ranges would enable more precise interpretability and targeted interventions in LLMs. To validate our hypothesis, we introduce NeuronLens, a novel range-based interpretation and manipulation framework that provides a finer view of neuron activation distributions to localize concept attribution within a neuron. Extensive empirical evaluations demonstrate that NeuronLens significantly reduces unintended interference, while maintaining precise manipulation of targeted concepts, outperforming neuron attribution.
- Abstract(参考訳): 大規模言語モデル(LLM)の内部メカニズムの解釈は,信頼性と実用性の向上に不可欠である。
これまでの研究は主に個々のニューロンを個別の意味概念にマッピングすることに重点を置いてきた。
しかしながら、そのようなマッピングは、個々のニューロンが複数の異なる概念をコードするLLMの固有の多意味性を扱うのに苦労する。
様々なデータセットにまたがるエンコーダとデコーダに基づくLLMの包括的解析により、特定の意味概念に対する様々な属性技術を通して同定された高能率ニューロンでさえ、一貫して多意味的な振る舞いを示すことが観察された。
重要なことに、きめ細かい概念の活性化等級は、最小の重なりを持つガウス的な分布に従う。
この観察は、ニューロンの属性からレンジベースの解釈へのシフトを動機付けている。
我々は、ニューロン活性化範囲の解釈と操作が、より正確な解釈可能性とLLMの標的介入を可能にすると仮定する。
本仮説を検証するために,ニューロン内の概念帰属を局在化するためのニューロン活性化分布のより詳細なビューを提供する,新しい範囲ベースの解釈・操作フレームワークであるNeuronLensを導入する。
広範囲にわたる経験的評価により、ニューロンは意図しない干渉を著しく減らし、標的概念の正確な操作を維持し、ニューロンの属性を上回ります。
関連論文リスト
- Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。
まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。
我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文 参考訳(メタデータ) (2025-02-03T20:30:46Z) - Compositional Concept-Based Neuron-Level Interpretability for Deep Reinforcement Learning [2.9539724161670167]
深部強化学習(DRL)は多くの複雑な制御問題に対処することに成功している。
現在のDRL解釈法は主にニューラルネットワークをブラックボックスとして扱う。
本稿では,ニューロンレベルでのDRLモデルの詳細な説明を提供する,新しい概念に基づく解釈可能性手法を提案する。
論文 参考訳(メタデータ) (2025-02-02T06:05:49Z) - QuantFormer: Learning to Quantize for Neural Activity Forecasting in Mouse Visual Cortex [26.499583552980248]
QuantFormerは、2光子カルシウムイメージングデータから神経活動を予測するために特別に設計されたトランスフォーマーベースのモデルである。
QuantFormerは、マウス視覚野の活動を予測する新しいベンチマークを設定している。
様々な刺激や個人に対して、堅牢なパフォーマンスと一般化を示す。
論文 参考訳(メタデータ) (2024-12-10T07:44:35Z) - Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
しきい値単位の動的代替として人工内蔵ニューロン(AKOrN)を導入する。
このアイデアは、幅広いタスクにまたがってパフォーマンス改善をもたらすことを示しています。
これらの経験的結果は、神経表現の最も基本的なレベルにおいて、私たちの仮定の重要性を示していると信じている。
論文 参考訳(メタデータ) (2024-10-17T17:47:54Z) - ConceptLens: from Pixels to Understanding [1.3466710708566176]
ConceptLensは、隠れたニューロンの活性化を可視化することによって、ディープニューラルネットワーク(DNN)の複雑な動作を照明する革新的なツールである。
ディープラーニングとシンボリックな方法を統合することで、ConceptLensは、ニューロンの活性化を引き起こすものを理解するユニークな方法を提供する。
論文 参考訳(メタデータ) (2024-10-04T20:49:12Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Automated Natural Language Explanation of Deep Visual Neurons with Large
Models [43.178568768100305]
本稿では,大きな基礎モデルを持つニューロンの意味的説明を生成するための,新しいポストホックフレームワークを提案する。
我々のフレームワークは、様々なモデルアーキテクチャやデータセット、自動化されたスケーラブルなニューロン解釈と互換性があるように設計されています。
論文 参考訳(メタデータ) (2023-10-16T17:04:51Z) - Cones: Concept Neurons in Diffusion Models for Customized Generation [41.212255848052514]
本稿では,特定の対象に対応する拡散モデルにおいて,ニューロンの小さな集合を見出す。
概念ニューロンは、生成結果の解釈と操作において磁気特性を示す。
大規模な応用においては、ニューロンは環境に優しいため、密度の高いfloat32値ではなく、sparseクラスタのintインデックスを格納するだけである。
論文 参考訳(メタデータ) (2023-03-09T09:16:04Z) - Overcoming the Domain Gap in Contrastive Learning of Neural Action
Representations [60.47807856873544]
神経科学の基本的な目標は、神経活動と行動の関係を理解することである。
我々は,ハエが自然に生み出す行動からなる新しいマルチモーダルデータセットを作成した。
このデータセットと新しい拡張セットは、神経科学における自己教師あり学習手法の適用を加速することを約束します。
論文 参考訳(メタデータ) (2021-11-29T15:27:51Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。