論文の概要: NEAT: Concept driven Neuron Attribution in LLMs
- arxiv url: http://arxiv.org/abs/2508.15875v1
- Date: Thu, 21 Aug 2025 10:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.139109
- Title: NEAT: Concept driven Neuron Attribution in LLMs
- Title(参考訳): NEAT:LLMにおける概念駆動ニューロンの寄与
- Authors: Vivek Hruday Kavuri, Gargi Shroff, Rahul Mishra,
- Abstract要約: 最終予測に責任を負うニューロンの配置は、ブラックボックスの大きな言語モデルを開く上で重要である。
本稿では、特定の概念を表現し、それらのニューロンを概念ニューロンとして表現する重要なニューロンの配置法を提案する。
- 参考スコア(独自算出の注目度): 2.436631469537453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Locating neurons that are responsible for final predictions is important for opening the black-box large language models and understanding the inside mechanisms. Previous studies have tried to find mechanisms that operate at the neuron level but these methods fail to represent a concept and there is also scope for further optimization of compute required. In this paper, with the help of concept vectors, we propose a method for locating significant neurons that are responsible for representing certain concepts and term those neurons as concept neurons. If the number of neurons is n and the number of examples is m, we reduce the number of forward passes required from O(n*m) to just O(n) compared to the previous works and hence optimizing the time and computation required over previous works. We also compare our method with several baselines and previous methods and our results demonstrate better performance than most of the methods and are more optimal when compared to the state-of-the-art method. We, as part of our ablation studies, also try to optimize the search for the concept neurons by involving clustering methods. Finally, we apply our methods to find, turn off the neurons that we find, and analyze its implications in parts of hate speech and bias in LLMs, and we also evaluate our bias part in terms of Indian context. Our methodology, analysis and explanations facilitate understating of neuron-level responsibility for more broader and human-like concepts and also lay a path for future research in this direction of finding concept neurons and intervening them.
- Abstract(参考訳): 最終予測に責任を負うニューロンの配置は、ブラックボックスの大きな言語モデルを開き、内部メカニズムを理解する上で重要である。
これまでの研究では、ニューロンレベルで機能するメカニズムを見つけようとしたが、これらの手法は概念を表現できず、計算のさらなる最適化のスコープもある。
本稿では、概念ベクトルの助けを借りて、特定の概念を表現し、それらのニューロンを概念ニューロンとみなす責任を負う重要なニューロンを探索する手法を提案する。
ニューロンの数が n で例の数が m であれば、前の作業と比べて O(n*m) から O(n) への前方通過の回数を減らし、従って前の作業に必要な時間と計算を最適化する。
また,本手法をいくつかのベースラインおよび先行手法と比較し,本手法よりも優れた性能を示し,最先端手法と比較して最適であることを示した。
我々は、アブレーション研究の一環として、クラスタリング手法による概念ニューロンの探索の最適化も試みている。
最後に、私たちの方法を適用して、私たちの見つけたニューロンを見つけ、消し、LLMのヘイトスピーチや偏見の一部でその影響を分析し、インドの文脈でバイアス部分を評価する。
我々の方法論、分析、説明は、より広範で人間らしい概念に対するニューロンレベルの責任の理解を促進するとともに、概念ニューロンの発見とそれらへの介入というこの方向の今後の研究の道を開く。
関連論文リスト
- Understanding Gated Neurons in Transformers from Their Input-Output Functionality [48.91500104957796]
ニューロンの入力重みと出力重みのコサイン類似性について検討する。
初期中間層ではエンリッチメントニューロンが支配的であり,後期層では枯渇傾向が見られた。
論文 参考訳(メタデータ) (2025-05-23T14:14:17Z) - Revisiting Large Language Model Pruning using Neuron Semantic Attribution [63.62836612864512]
人気プルーニング手法を用いて,24のデータセットと4つのタスクの評価を行った。
感情分類タスクでは,既存のプルーニング手法の大幅な性能低下がみられた。
本稿では,各ニューロンと特定の意味論を関連づけることを学ぶニューロン意味属性を提案する。
論文 参考訳(メタデータ) (2025-03-03T13:52:17Z) - Interpreting Arithmetic Mechanism in Large Language Models through Comparative Neuron Analysis [19.472889262384818]
演算能力は限られた数の注目ヘッド内に存在し、それぞれ異なる操作を専門とする。
本稿では,入力から予測までの4段階からなる内部論理チェーンを同定する,比較ニューロン解析(CNA)手法を提案する。
論文 参考訳(メタデータ) (2024-09-21T13:46:54Z) - Growing Deep Neural Network Considering with Similarity between Neurons [4.32776344138537]
我々は、訓練段階におけるコンパクトモデルにおいて、ニューロン数を漸進的に増加させる新しいアプローチを探求する。
本稿では,ニューロン類似性分布に基づく制約を導入することにより,特徴抽出バイアスと神経冗長性を低減する手法を提案する。
CIFAR-10とCIFAR-100データセットの結果、精度が向上した。
論文 参考訳(メタデータ) (2024-08-23T11:16:37Z) - Neuron-Level Knowledge Attribution in Large Language Models [19.472889262384818]
本稿では,重要なニューロンをピンポイントする静的手法を提案する。
他の7つの手法と比較して,本手法は3つの指標にまたがる優れた性能を示す。
また,注目層とフィードフォワード層の両方にわたる6種類の知識を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2023-12-19T13:23:18Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Factorized Neural Processes for Neural Processes: $K$-Shot Prediction of
Neural Responses [9.792408261365043]
我々は,小さな刺激応答対からニューロンのチューニング関数を推定するファクトリズ・ニューラル・プロセスを開発した。
本稿では,ニューラルプロセスからの予測および再構成された受容場が,試行数の増加とともに真理に近づいたことをシミュレートした応答を示す。
この新しいディープラーニングシステム識別フレームワークは、ニューラルネットワークモデリングを神経科学実験にリアルタイムに組み込むのに役立つと信じている。
論文 参考訳(メタデータ) (2020-10-22T15:43:59Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。