論文の概要: Tiny Brains, Giant Impact: Uncovering the Keystone Neurons of LLM with Just a Few Prompts
- arxiv url: http://arxiv.org/abs/2605.24846v2
- Date: Wed, 27 May 2026 17:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.631978
- Title: Tiny Brains, Giant Impact: Uncovering the Keystone Neurons of LLM with Just a Few Prompts
- Title(参考訳): LLMのキーストーンニューロンを、ほんの少しのプロンプトで発見
- Authors: Xiangtian Ji, Yuxin Chen, Zhengzhou Cai, Xiang Wang, An Zhang, Tat-Seng Chua,
- Abstract要約: 広い範囲のオープンウェイトトランスフォーマーにおいて、ニューロンのサブセットは、複数の能力次元のタスクをまたいだ推論において、常に高度に活性化されることが示される。
クロスタスク活性化強度に沿って探索することにより、非常にスパースなサブセットが分離され、その除去はモデル挙動の崩壊を引き起こす。
解析の結果,キーストーンニューロンは,前訓練中にほぼ確立されたモデルの安定で内在的なニューロンサブセットであることが明らかとなった。
- 参考スコア(独自算出の注目度): 57.98275914877019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) display strong comprehensive abilities, yet the internal mechanisms that support these behaviors remain insufficiently understood. In this work, we show that across a wide range of open-weight Transformers, a subset of neurons remains consistently highly activated during inference across tasks of multiple capability dimensions. By probing along the cross-task activation strength, an extremely sparse subset is isolated, whose removal causes a collapse in model behavior, which we term keystone neurons. Our analysis reveals that keystone neurons are a stable and intrinsic neuron subset of the model that is largely established during pretraining. The parameters associated with these neurons are tightly calibrated during the training process, and their precise values are critical for the capabilities of the model. Building on these insights, we propose a supervised fine-tuning approach that updates only keystone neurons, achieving task gains comparable to or even better than full-parameter fine-tuning while better preserving performance in other capability dimensions, despite modifying a much smaller number of parameters.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力な包括的能力を示すが、これらの振る舞いをサポートする内部メカニズムは十分に理解されていない。
本研究は、幅広いオープンウェイトトランスフォーマーにおいて、複数の能力次元のタスクをまたいだ推論において、ニューロンのサブセットが一貫して高度に活性化されていることを示す。
クロスタスク活性化強度に沿って探索することにより、極端にスパースなサブセットが分離され、その除去はキーストーンニューロンと呼ばれるモデル行動の崩壊を引き起こす。
解析の結果,キーストーンニューロンは,前訓練中にほぼ確立されたモデルの安定で内在的なニューロンサブセットであることが明らかとなった。
これらのニューロンに関連するパラメータは、トレーニングプロセス中に厳密に校正され、それらの正確な値はモデルの能力に対して重要である。
これらの知見に基づいて、キーストーンニューロンのみを更新し、全パラメータの微調整に匹敵するタスクゲインを達成するとともに、多くのパラメータを修正しながら、他の機能次元のパフォーマンスを向上する教師付き微調整手法を提案する。
関連論文リスト
- NOBLE -- Neural Operator with Biologically-informed Latent Embeddings to Capture Experimental Variability in Biological Neuron Models [63.592664795493725]
NOBLEは、解釈可能なニューロンの特徴を連続周波数変調した埋め込みから電流注入によって誘導されるソマティック電圧応答へのマッピングを学ぶ神経オペレーターフレームワークである。
内在的な実験変数を考慮したニューラルダイナミクスの分布を予測する。
NOBLEは、その一般化を実際の実験データで検証する最初の大規模ディープラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T01:01:18Z) - To See a World in a Spark of Neuron: Disentangling Multi-task Interference for Training-free Model Merging [16.81093103067372]
本研究は, モデルマージにおける神経機構を利用した最初の研究である。
神経サブスペース内のタスク干渉を軽減するために開発された新しい統合フレームワークであるNeuroMergingを紹介する。
本研究は, モデルマージにおける神経機構の整合の重要性を強調した。
論文 参考訳(メタデータ) (2025-03-07T11:00:24Z) - Let's Focus on Neuron: Neuron-Level Supervised Fine-tuning for Large Language Model [43.107778640669544]
大型言語モデル(LLM)は、様々な行動や役割を示すニューロンで構成されている。
最近の研究によると、全てのニューロンが異なるデータセットで活動しているわけではない。
我々は,パラメータ学習の粒度を個々のニューロンに絞り込む新しいアプローチであるNeFT(Neuron-Level Fine-Tuning)を導入する。
論文 参考訳(メタデータ) (2024-03-18T09:55:01Z) - Neuroformer: Multimodal and Multitask Generative Pretraining for Brain Data [3.46029409929709]
最先端のシステム神経科学実験は大規模なマルチモーダルデータを生み出し、これらのデータセットは分析のための新しいツールを必要とする。
視覚領域と言語領域における大きな事前学習モデルの成功に触発されて、我々は大規模な細胞分解性神経スパイクデータの解析を自己回帰生成問題に再構成した。
我々はまず、シミュレーションデータセットでNeuroformerを訓練し、本質的なシミュレートされた神経回路の動作を正確に予測し、方向を含む基盤となる神経回路の接続性を推定した。
論文 参考訳(メタデータ) (2023-10-31T20:17:32Z) - The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。
ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。
本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文 参考訳(メタデータ) (2023-06-14T13:34:13Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Continuous Learning and Adaptation with Membrane Potential and
Activation Threshold Homeostasis [91.3755431537592]
本稿では,MPATH(Membrane Potential and Activation Threshold Homeostasis)ニューロンモデルを提案する。
このモデルにより、ニューロンは入力が提示されたときに自動的に活性を調節することで動的平衡の形式を維持することができる。
実験は、モデルがその入力から適応し、継続的に学習する能力を示す。
論文 参考訳(メタデータ) (2021-04-22T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。