論文の概要: Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution
- arxiv url: http://arxiv.org/abs/2502.06809v1
- Date: Tue, 04 Feb 2025 03:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-16 04:07:46.577288
- Title: Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution
- Title(参考訳): ニューロンは距離で話す:離散的な神経細胞の属性から解放される
- Authors: Muhammad Umair Haider, Hammad Rizwan, Hassan Sajjad, Peizhong Ju, A. B. Siddique,
- Abstract要約: 本稿では,新しいレンジベースの解釈・操作フレームワークであるNeuronLensを紹介する。
これは、ニューロン内の概念帰属を局在させるために、ニューロンの活性化分布のより詳細なビューを提供する。
- 参考スコア(独自算出の注目度): 16.460751105639623
- License:
- Abstract: Interpreting and controlling the internal mechanisms of large language models (LLMs) is crucial for improving their trustworthiness and utility. Recent efforts have primarily focused on identifying and manipulating neurons by establishing discrete mappings between neurons and semantic concepts. However, such mappings struggle to handle the inherent polysemanticity in LLMs, where individual neurons encode multiple, distinct concepts. This makes precise control challenging and complicates downstream interventions. Through an in-depth analysis of both encoder and decoder-based LLMs across multiple text classification datasets, we uncover that while individual neurons encode multiple concepts, their activation magnitudes vary across concepts in distinct, Gaussian-like patterns. Building on this insight, we introduce NeuronLens, a novel range-based interpretation and manipulation framework that provides a finer view of neuron activation distributions to localize concept attribution within a neuron. Extensive empirical evaluations demonstrate that NeuronLens significantly reduces unintended interference, while maintaining precise control for manipulation of targeted concepts, outperforming existing methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の内部メカニズムの解釈と制御は,信頼性と実用性の向上に不可欠である。
近年の取り組みは、神経細胞と意味概念の個別マッピングを確立することによって神経細胞の同定と操作に重点を置いている。
しかしながら、そのようなマッピングは、個々のニューロンが複数の異なる概念をコードするLLMの固有の多意味性を扱うのに苦労する。
これにより、正確な制御が困難になり、下流での介入が複雑になる。
複数のテキスト分類データセットにまたがるエンコーダとデコーダに基づくLLMの詳細な解析により、個々のニューロンが複数の概念をエンコードする一方で、それらの活性化の大きさが異なるガウス的なパターンで異なることが判明した。
この知見に基づいて、ニューロン内の概念帰属をローカライズするためのニューロン活性化分布のより詳細なビューを提供する、新しいレンジベースの解釈および操作フレームワークであるNeuronLensを紹介する。
広範囲にわたる経験的評価は、ニューロニューロンは意図しない干渉を著しく低減し、ターゲット概念の操作を正確に制御し、既存の方法より優れていることを示している。
関連論文リスト
- Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。
まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。
我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文 参考訳(メタデータ) (2025-02-03T20:30:46Z) - Compositional Concept-Based Neuron-Level Interpretability for Deep Reinforcement Learning [2.9539724161670167]
深部強化学習(DRL)は多くの複雑な制御問題に対処することに成功している。
現在のDRL解釈法は主にニューラルネットワークをブラックボックスとして扱う。
本稿では,ニューロンレベルでのDRLモデルの詳細な説明を提供する,新しい概念に基づく解釈可能性手法を提案する。
論文 参考訳(メタデータ) (2025-02-02T06:05:49Z) - QuantFormer: Learning to Quantize for Neural Activity Forecasting in Mouse Visual Cortex [26.499583552980248]
QuantFormerは、2光子カルシウムイメージングデータから神経活動を予測するために特別に設計されたトランスフォーマーベースのモデルである。
QuantFormerは、マウス視覚野の活動を予測する新しいベンチマークを設定している。
様々な刺激や個人に対して、堅牢なパフォーマンスと一般化を示す。
論文 参考訳(メタデータ) (2024-12-10T07:44:35Z) - Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
神経科学とAIの両方において、ニューロン間の'結合'が競合学習の形式につながることは長年知られている。
完全に接続された畳み込みや注意機構などの任意の接続設計とともに人工的再考を導入する。
このアイデアは、教師なしオブジェクト発見、敵対的ロバスト性、不確実性、推論など、幅広いタスクに性能改善をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-17T17:47:54Z) - ConceptLens: from Pixels to Understanding [1.3466710708566176]
ConceptLensは、隠れたニューロンの活性化を可視化することによって、ディープニューラルネットワーク(DNN)の複雑な動作を照明する革新的なツールである。
ディープラーニングとシンボリックな方法を統合することで、ConceptLensは、ニューロンの活性化を引き起こすものを理解するユニークな方法を提供する。
論文 参考訳(メタデータ) (2024-10-04T20:49:12Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Automated Natural Language Explanation of Deep Visual Neurons with Large
Models [43.178568768100305]
本稿では,大きな基礎モデルを持つニューロンの意味的説明を生成するための,新しいポストホックフレームワークを提案する。
我々のフレームワークは、様々なモデルアーキテクチャやデータセット、自動化されたスケーラブルなニューロン解釈と互換性があるように設計されています。
論文 参考訳(メタデータ) (2023-10-16T17:04:51Z) - Cones: Concept Neurons in Diffusion Models for Customized Generation [41.212255848052514]
本稿では,特定の対象に対応する拡散モデルにおいて,ニューロンの小さな集合を見出す。
概念ニューロンは、生成結果の解釈と操作において磁気特性を示す。
大規模な応用においては、ニューロンは環境に優しいため、密度の高いfloat32値ではなく、sparseクラスタのintインデックスを格納するだけである。
論文 参考訳(メタデータ) (2023-03-09T09:16:04Z) - Overcoming the Domain Gap in Contrastive Learning of Neural Action
Representations [60.47807856873544]
神経科学の基本的な目標は、神経活動と行動の関係を理解することである。
我々は,ハエが自然に生み出す行動からなる新しいマルチモーダルデータセットを作成した。
このデータセットと新しい拡張セットは、神経科学における自己教師あり学習手法の適用を加速することを約束します。
論文 参考訳(メタデータ) (2021-11-29T15:27:51Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。