論文の概要: The Knowledge Microscope: Features as Better Analytical Lenses than Neurons
- arxiv url: http://arxiv.org/abs/2502.12483v2
- Date: Thu, 27 Feb 2025 11:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:53:28.421457
- Title: The Knowledge Microscope: Features as Better Analytical Lenses than Neurons
- Title(参考訳): 知識顕微鏡:ニューロンより優れた分析レンズとしての機能
- Authors: Yuheng Chen, Pengfei Cao, Kang Liu, Jun Zhao,
- Abstract要約: 言語モデル(LM)における事実知識のメカニズム理解のための分析単位としてのニューロンの利用に関する研究
本稿では、まず、スパースオートエンコーダ(SAE)がニューロンを機能に分解し、代替分析ユニットとして機能することを検証するための予備実験を行う。
- 参考スコア(独自算出の注目度): 15.883209651151155
- License:
- Abstract: Previous studies primarily utilize MLP neurons as units of analysis for understanding the mechanisms of factual knowledge in Language Models (LMs); however, neurons suffer from polysemanticity, leading to limited knowledge expression and poor interpretability. In this paper, we first conduct preliminary experiments to validate that Sparse Autoencoders (SAE) can effectively decompose neurons into features, which serve as alternative analytical units. With this established, our core findings reveal three key advantages of features over neurons: (1) Features exhibit stronger influence on knowledge expression and superior interpretability. (2) Features demonstrate enhanced monosemanticity, showing distinct activation patterns between related and unrelated facts. (3) Features achieve better privacy protection than neurons, demonstrated through our proposed FeatureEdit method, which significantly outperforms existing neuron-based approaches in erasing privacy-sensitive information from LMs.Code and dataset will be available.
- Abstract(参考訳): これまでの研究では、MLPニューロンを言語モデル(LM)における事実知識のメカニズムを理解するための分析単位として主に用いていたが、ニューロンは多意味性に悩まされ、知識表現の制限と解釈可能性の低下につながった。
本稿では、まず、スパースオートエンコーダ(SAE)がニューロンを機能に分解し、代替分析ユニットとして機能することを検証するための予備実験を行う。
本研究の核となる発見は, ニューロンに対する特徴の3つの重要な長所である: 1) 特徴は知識表現に強く影響し, 理解可能性に優れる。
2) 特徴は, 関連事実と非関連事実のアクティベーションパターンを明瞭に示し, 単意味性の向上を示した。
3)ニューロンよりも優れたプライバシ保護を実現するため,提案したFeatureEdit法により,LMからプライバシに敏感な情報を消去する既存のニューロンベースのアプローチを著しく上回り,コードとデータセットが利用可能となる。
関連論文リスト
- Single-neuron deep generative model uncovers underlying physics of neuronal activity in Ca imaging data [0.0]
自己回帰変分オートエンコーダ(AVAE)を用いた単一ニューロン表現学習のための新しいフレームワークを提案する。
我々のアプローチでは、スパイク推論アルゴリズムを必要とせずに、個々のニューロンの信号を縮小次元空間に埋め込む。
AVAEは、より情報的で差別的な潜在表現を生成することによって、従来の線形手法よりも優れている。
論文 参考訳(メタデータ) (2025-01-24T16:33:52Z) - The unbearable lightness of Restricted Boltzmann Machines: Theoretical Insights and Biological Applications [0.0]
RBMにおける単一ニューロンの入力出力関係を記述したアクティベーション関数がそれらの機能に果たす役割の見直しに焦点をあてる。
異なる活性化関数の利点と限界に関する最近の理論的結果について議論する。
我々はまた、生体データ分析、すなわち、RAMユニットがシグモイド活性化機能とバイナリーユニットを持つのがほとんどである神経データ分析、非バイナリーユニットと非シグモイド活性化関数が最近示されているタンパク質データ分析と免疫学への応用についてレビューした。
論文 参考訳(メタデータ) (2025-01-08T09:57:08Z) - Neuron Empirical Gradient: Discovering and Quantifying Neurons Global Linear Controllability [14.693407823048478]
本研究はまず,ニューロン活性化とモデル出力の数値的関係について検討する。
ニューロン実験勾配(NEG)の正確かつ効率的な計算法であるNeurGradを導入する。
論文 参考訳(メタデータ) (2024-12-24T00:01:24Z) - Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。
LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:47:45Z) - A generative framework to bridge data-driven models and scientific theories in language neuroscience [84.76462599023802]
脳内の言語選択性の簡潔な説明を生成するためのフレームワークである生成的説明媒介バリデーションを提案する。
本研究では,説明精度が基礎となる統計モデルの予測力と安定性と密接に関連していることを示す。
論文 参考訳(メタデータ) (2024-10-01T15:57:48Z) - Identification of Knowledge Neurons in Protein Language Models [0.0]
キー情報の理解を表現した知識ニューロンを同定し,特徴付ける。
自己認識モジュールのキーベクトル予測ネットワークには,知識ニューロンの密度が高いことを示す。
将来的には、各ニューロンが捉えた知識の種類を特徴付けることができる。
論文 参考訳(メタデータ) (2023-12-17T17:23:43Z) - Finding and Editing Multi-Modal Neurons in Pre-Trained Transformers [24.936419036304855]
そこで本研究では,重要なニューロンを識別する新しい手法を提案する。
本手法は,コストのかかる勾配計算の必要性を取り除き,効率と適用範囲の従来の作業を改善する。
同定されたニューロンに基づいて, センシティブな単語や幻覚を軽減できる多モーダルな知識編集手法を設計する。
論文 参考訳(メタデータ) (2023-11-13T17:03:02Z) - Overcoming the Domain Gap in Contrastive Learning of Neural Action
Representations [60.47807856873544]
神経科学の基本的な目標は、神経活動と行動の関係を理解することである。
我々は,ハエが自然に生み出す行動からなる新しいマルチモーダルデータセットを作成した。
このデータセットと新しい拡張セットは、神経科学における自己教師あり学習手法の適用を加速することを約束します。
論文 参考訳(メタデータ) (2021-11-29T15:27:51Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。