論文の概要: Interpreting Arithmetic Mechanism in Large Language Models through Comparative Neuron Analysis
- arxiv url: http://arxiv.org/abs/2409.14144v1
- Date: Sat, 21 Sep 2024 13:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:22:12.004419
- Title: Interpreting Arithmetic Mechanism in Large Language Models through Comparative Neuron Analysis
- Title(参考訳): 比較ニューロン解析による大規模言語モデルの算術的メカニズムの解釈
- Authors: Zeping Yu, Sophia Ananiadou,
- Abstract要約: 演算能力は限られた数の注目ヘッド内に存在し、それぞれ異なる操作を専門とする。
本稿では,入力から予測までの4段階からなる内部論理チェーンを同定する,比較ニューロン解析(CNA)手法を提案する。
- 参考スコア(独自算出の注目度): 19.472889262384818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We find arithmetic ability resides within a limited number of attention heads, with each head specializing in distinct operations. To delve into the reason, we introduce the Comparative Neuron Analysis (CNA) method, which identifies an internal logic chain consisting of four distinct stages from input to prediction: feature enhancing with shallow FFN neurons, feature transferring by shallow attention layers, feature predicting by arithmetic heads, and prediction enhancing among deep FFN neurons. Moreover, we identify the human-interpretable FFN neurons within both feature-enhancing and feature-predicting stages. These findings lead us to investigate the mechanism of LoRA, revealing that it enhances prediction probabilities by amplifying the coefficient scores of FFN neurons related to predictions. Finally, we apply our method in model pruning for arithmetic tasks and model editing for reducing gender bias. Code is on https://github.com/zepingyu0512/arithmetic-mechanism.
- Abstract(参考訳): 演算能力は限られた数の注目ヘッド内に存在し、それぞれ異なる操作を専門とする。
そこで本研究では,入力から予測までの4つの異なる段階からなる内部論理鎖を同定するCNA法を提案する。これは,浅部FFNニューロンによる特徴伝達,浅部注目層による特徴伝達,算術的頭部による特徴予測,深部FFNニューロン間の特徴増強である。
さらに,特徴強調および特徴予測段階において,人間の解釈可能なFFNニューロンを同定した。
これらの結果からLoRAのメカニズムを解明し,予測に関連するFFNニューロンの係数スコアを増幅することにより予測確率を高めることを明らかにした。
最後に,算術的なタスクに対するモデルプルーニングと,ジェンダーバイアスを低減するためのモデル編集に本手法を適用した。
コードはhttps://github.com/zepingyu0512/arithmetic-mechanismにある。
関連論文リスト
- Exploring Behavior-Relevant and Disentangled Neural Dynamics with Generative Diffusion Models [2.600709013150986]
行動の神経基盤を理解することは神経科学の基本的な目標である。
私たちのアプローチは、BeNeDiff'と呼ばれるもので、まずきめ細やかな神経部分空間を識別します。
次に、最先端の生成拡散モデルを使用して、各潜伏因子の神経力学を解釈する行動ビデオを合成する。
論文 参考訳(メタデータ) (2024-10-12T18:28:56Z) - Growing Deep Neural Network Considering with Similarity between Neurons [4.32776344138537]
我々は、訓練段階におけるコンパクトモデルにおいて、ニューロン数を漸進的に増加させる新しいアプローチを探求する。
本稿では,ニューロン類似性分布に基づく制約を導入することにより,特徴抽出バイアスと神経冗長性を低減する手法を提案する。
CIFAR-10とCIFAR-100データセットの結果、精度が向上した。
論文 参考訳(メタデータ) (2024-08-23T11:16:37Z) - Automated Natural Language Explanation of Deep Visual Neurons with Large
Models [43.178568768100305]
本稿では,大きな基礎モデルを持つニューロンの意味的説明を生成するための,新しいポストホックフレームワークを提案する。
我々のフレームワークは、様々なモデルアーキテクチャやデータセット、自動化されたスケーラブルなニューロン解釈と互換性があるように設計されています。
論文 参考訳(メタデータ) (2023-10-16T17:04:51Z) - NeuroExplainer: Fine-Grained Attention Decoding to Uncover Cortical
Development Patterns of Preterm Infants [73.85768093666582]
我々はNeuroExplainerと呼ばれる説明可能な幾何学的深層ネットワークを提案する。
NeuroExplainerは、早産に伴う幼児の皮質発達パターンの解明に使用される。
論文 参考訳(メタデータ) (2023-01-01T12:48:12Z) - A Novel Supervised Contrastive Regression Framework for Prediction of
Neurocognitive Measures Using Multi-Site Harmonized Diffusion MRI
Tractography [13.80649748804573]
Supervised Contrastive Regression (SCR)は、回帰タスクにおけるコントラスト学習の完全な監視を可能にする、シンプルで効果的な方法である。
SCRは、連続回帰ラベルの絶対差を用いて教師付きコントラスト表現学習を行う。
SCRは、他の最先端手法と比較して、神経認知的スコア予測の精度を向上する。
論文 参考訳(メタデータ) (2022-10-13T23:24:12Z) - Neuronal Correlation: a Central Concept in Neural Network [22.764342635264452]
神経相関は, 重み行列を用いて効率的に推定できることが示唆された。
神経相関は高次元隠れ空間におけるエントロピー推定の精度に大きく影響している。
論文 参考訳(メタデータ) (2022-01-22T15:01:50Z) - Overcoming the Domain Gap in Contrastive Learning of Neural Action
Representations [60.47807856873544]
神経科学の基本的な目標は、神経活動と行動の関係を理解することである。
我々は,ハエが自然に生み出す行動からなる新しいマルチモーダルデータセットを作成した。
このデータセットと新しい拡張セットは、神経科学における自己教師あり学習手法の適用を加速することを約束します。
論文 参考訳(メタデータ) (2021-11-29T15:27:51Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Neuro-symbolic Neurodegenerative Disease Modeling as Probabilistic
Programmed Deep Kernels [93.58854458951431]
本稿では、神経変性疾患のパーソナライズされた予測モデリングのための、確率的プログラムによる深層カーネル学習手法を提案する。
我々の分析は、ニューラルネットワークとシンボリック機械学習のアプローチのスペクトルを考慮する。
我々は、アルツハイマー病の予測問題について評価を行い、深層学習を超越した結果を得た。
論文 参考訳(メタデータ) (2020-09-16T15:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。