論文の概要: Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution
- arxiv url: http://arxiv.org/abs/2502.06809v1
- Date: Tue, 04 Feb 2025 03:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-16 04:07:46.577288
- Title: Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution
- Title(参考訳): ニューロンは距離で話す:離散的な神経細胞の属性から解放される
- Authors: Muhammad Umair Haider, Hammad Rizwan, Hassan Sajjad, Peizhong Ju, A. B. Siddique,
- Abstract要約: 本稿では,新しいレンジベースの解釈・操作フレームワークであるNeuronLensを紹介する。
これは、ニューロン内の概念帰属を局在させるために、ニューロンの活性化分布のより詳細なビューを提供する。
- 参考スコア(独自算出の注目度): 16.460751105639623
- License:
- Abstract: Interpreting and controlling the internal mechanisms of large language models (LLMs) is crucial for improving their trustworthiness and utility. Recent efforts have primarily focused on identifying and manipulating neurons by establishing discrete mappings between neurons and semantic concepts. However, such mappings struggle to handle the inherent polysemanticity in LLMs, where individual neurons encode multiple, distinct concepts. This makes precise control challenging and complicates downstream interventions. Through an in-depth analysis of both encoder and decoder-based LLMs across multiple text classification datasets, we uncover that while individual neurons encode multiple concepts, their activation magnitudes vary across concepts in distinct, Gaussian-like patterns. Building on this insight, we introduce NeuronLens, a novel range-based interpretation and manipulation framework that provides a finer view of neuron activation distributions to localize concept attribution within a neuron. Extensive empirical evaluations demonstrate that NeuronLens significantly reduces unintended interference, while maintaining precise control for manipulation of targeted concepts, outperforming existing methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の内部メカニズムの解釈と制御は,信頼性と実用性の向上に不可欠である。
近年の取り組みは、神経細胞と意味概念の個別マッピングを確立することによって神経細胞の同定と操作に重点を置いている。
しかしながら、そのようなマッピングは、個々のニューロンが複数の異なる概念をコードするLLMの固有の多意味性を扱うのに苦労する。
これにより、正確な制御が困難になり、下流での介入が複雑になる。
複数のテキスト分類データセットにまたがるエンコーダとデコーダに基づくLLMの詳細な解析により、個々のニューロンが複数の概念をエンコードする一方で、それらの活性化の大きさが異なるガウス的なパターンで異なることが判明した。
この知見に基づいて、ニューロン内の概念帰属をローカライズするためのニューロン活性化分布のより詳細なビューを提供する、新しいレンジベースの解釈および操作フレームワークであるNeuronLensを紹介する。
広範囲にわたる経験的評価は、ニューロニューロンは意図しない干渉を著しく低減し、ターゲット概念の操作を正確に制御し、既存の方法より優れていることを示している。
関連論文リスト
- Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
しきい値単位の動的代替として人工内蔵ニューロン(AKOrN)を導入する。
このアイデアは、幅広いタスクにまたがってパフォーマンス改善をもたらすことを示しています。
これらの経験的結果は、神経表現の最も基本的なレベルにおいて、私たちの仮定の重要性を示していると信じている。
論文 参考訳(メタデータ) (2024-10-17T17:47:54Z) - ConceptLens: from Pixels to Understanding [1.3466710708566176]
ConceptLensは、隠れたニューロンの活性化を可視化することによって、ディープニューラルネットワーク(DNN)の複雑な動作を照明する革新的なツールである。
ディープラーニングとシンボリックな方法を統合することで、ConceptLensは、ニューロンの活性化を引き起こすものを理解するユニークな方法を提供する。
論文 参考訳(メタデータ) (2024-10-04T20:49:12Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Automated Natural Language Explanation of Deep Visual Neurons with Large
Models [43.178568768100305]
本稿では,大きな基礎モデルを持つニューロンの意味的説明を生成するための,新しいポストホックフレームワークを提案する。
我々のフレームワークは、様々なモデルアーキテクチャやデータセット、自動化されたスケーラブルなニューロン解釈と互換性があるように設計されています。
論文 参考訳(メタデータ) (2023-10-16T17:04:51Z) - Cones: Concept Neurons in Diffusion Models for Customized Generation [41.212255848052514]
本稿では,特定の対象に対応する拡散モデルにおいて,ニューロンの小さな集合を見出す。
概念ニューロンは、生成結果の解釈と操作において磁気特性を示す。
大規模な応用においては、ニューロンは環境に優しいため、密度の高いfloat32値ではなく、sparseクラスタのintインデックスを格納するだけである。
論文 参考訳(メタデータ) (2023-03-09T09:16:04Z) - Constraints on the design of neuromorphic circuits set by the properties
of neural population codes [61.15277741147157]
脳内では、情報はコード化され、伝達され、行動を伝えるために使用される。
ニューロモルフィック回路は、脳内のニューロンの集団が使用するものと互換性のある方法で情報を符号化する必要がある。
論文 参考訳(メタデータ) (2022-12-08T15:16:04Z) - Understanding Neural Coding on Latent Manifolds by Sharing Features and
Dividing Ensembles [3.625425081454343]
システム神経科学は、単一ニューロンのチューニング曲線と集団活動の分析を特徴とする2つの相補的な神経データ観に依存している。
これらの2つの視点は、潜伏変数とニューラルアクティビティの関係を制約するニューラル潜伏変数モデルにおいてエレガントに結合する。
ニューラルチューニング曲線にまたがる機能共有を提案し、性能を大幅に改善し、より良い最適化を実現する。
論文 参考訳(メタデータ) (2022-10-06T18:37:49Z) - Overcoming the Domain Gap in Contrastive Learning of Neural Action
Representations [60.47807856873544]
神経科学の基本的な目標は、神経活動と行動の関係を理解することである。
我々は,ハエが自然に生み出す行動からなる新しいマルチモーダルデータセットを作成した。
このデータセットと新しい拡張セットは、神経科学における自己教師あり学習手法の適用を加速することを約束します。
論文 参考訳(メタデータ) (2021-11-29T15:27:51Z) - NeuroCartography: Scalable Automatic Visual Summarization of Concepts in
Deep Neural Networks [18.62960153659548]
NeuroCartographyは、ニューラルネットワークで学んだ概念を要約し視覚化するインタラクティブシステムである。
同じ概念を検知するニューロンを自動的に発見し、グループ化する。
このようなニューロン群がどのように相互作用し、より高いレベルの概念とその後の予測を形成するかを記述する。
論文 参考訳(メタデータ) (2021-08-29T22:43:52Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。