論文の概要: Auxiliary Metrics Help Decoding Skill Neurons in the Wild
- arxiv url: http://arxiv.org/abs/2511.21610v1
- Date: Wed, 26 Nov 2025 17:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.225962
- Title: Auxiliary Metrics Help Decoding Skill Neurons in the Wild
- Title(参考訳): 野生のスキルニューロンを解読する補助的メトリクス
- Authors: Yixiu Zhao, Xiaozhi Wang, Zijun Yao, Lei Hou, Juanzi Li,
- Abstract要約: 我々は、特定のスキルをコードするニューロンを分離するための、シンプルで軽量で広く適用可能な方法を紹介した。
我々は,ニューロンの活性化を,外部ラベルやモデル自身の信頼スコアなどの補助的指標と相関する。
我々は,オープンエンドテキスト生成と自然言語推論にまたがるタスクに対して,我々の手法を実証的に検証する。
- 参考スコア(独自算出の注目度): 52.148049490080496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit remarkable capabilities across a wide range of tasks, yet their internal mechanisms remain largely opaque. In this paper, we introduce a simple, lightweight, and broadly applicable method with a focus on isolating neurons that encode specific skills. Building upon prior work that identified "skill neurons" via soft prompt training on classification tasks, our approach extends the analysis to complex scenarios involving multiple skills. We correlate neuron activations with auxiliary metrics -- such as external labels and the model's own confidence score -- thereby uncovering interpretable and task-specific behaviors without the need for manual token aggregation. We empirically validate our method on tasks spanning open-ended text generation and natural language inference, demonstrating its ability to detect neurons that not only drive known skills but also reveal previously unidentified shortcuts in arithmetic reasoning on BigBench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲のタスクで顕著な機能を示すが、内部メカニズムはほとんど不透明である。
本稿では,特定のスキルを符号化するニューロンの分離に着目した,シンプルで軽量で広範に適用可能な手法を提案する。
分類タスクのソフトプロンプトトレーニングを通じて「スキルニューロン」を識別する先行研究に基づいて、本手法は複数のスキルを含む複雑なシナリオまで分析を拡張した。
ニューロンの活性化と、外部ラベルやモデル自身の信頼性スコアなどの補助的指標を関連付けることで、手動のトークンアグリゲーションを必要とせずに、解釈可能な、タスク固有の振る舞いを明らかにする。
オープンエンドテキスト生成と自然言語推論にまたがるタスクに対して,我々の手法を実証的に検証し,既知のスキルを駆動するだけでなく,BigBench上での算術的推論において未同定のショートカットを明らかにすることができることを示す。
関連論文リスト
- Towards Understanding Multi-Task Learning (Generalization) of LLMs via Detecting and Exploring Task-Specific Neurons [45.04661608619081]
大規模言語モデル(LLM)におけるタスク依存ニューロンは,タスク固有データに対する勾配属性によって検出される。
タスク固有のニューロンの重複は、タスク間の一般化と特殊化と強く関連している。
連続学習において,現在のタスク固有ニューロンのみを微調整するニューロンレベルの連続微調整法を提案する。
論文 参考訳(メタデータ) (2024-07-09T01:27:35Z) - tagE: Enabling an Embodied Agent to Understand Human Instructions [3.943519623674811]
我々は, Embodied Agent (tagE) のためのタスク・アンド・引数・グラウンドティング(タスク・アンド・引数・グラウンドディング)と呼ばれる新しいシステムを導入する。
本システムでは,自然言語で表現された複雑なタスク命令から一連のタスクを抽出するために,発明的なニューラルネットワークモデルを採用している。
提案モデルでは,入れ子デコードに富んだエンコーダ・デコーダ・フレームワークを用いて,複雑な命令からタスクとその引数を効果的に抽出する。
論文 参考訳(メタデータ) (2023-10-24T08:17:48Z) - Automated Natural Language Explanation of Deep Visual Neurons with Large
Models [43.178568768100305]
本稿では,大きな基礎モデルを持つニューロンの意味的説明を生成するための,新しいポストホックフレームワークを提案する。
我々のフレームワークは、様々なモデルアーキテクチャやデータセット、自動化されたスケーラブルなニューロン解釈と互換性があるように設計されています。
論文 参考訳(メタデータ) (2023-10-16T17:04:51Z) - Redundancy and Concept Analysis for Code-trained Language Models [5.726842555987591]
コード学習言語モデルは、様々なコードインテリジェンスタスクに非常に効果的であることが証明されている。
計算ボトルネックとメモリ制約のため、多くのソフトウェアエンジニアリングアプリケーションのトレーニングとデプロイが難しい場合がある。
我々は,ソースコードモデルに対する最初のニューロンレベルの解析を行い,潜在表現内でのテクスチエントニューロンの同定を行う。
論文 参考訳(メタデータ) (2023-05-01T15:22:41Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - Multi-Task Neural Processes [105.22406384964144]
我々はマルチタスク学習のためのニューラル・プロセスの新たな変種であるマルチタスク・ニューラル・プロセスを開発する。
特に,各タスク改善のための帰納的バイアスを提供するために,関数空間内の関連するタスクから伝達可能な知識を探索することを提案する。
その結果、マルチタスク学習におけるタスク間の有用な知識の伝達におけるマルチタスクニューラルプロセスの有効性が示された。
論文 参考訳(メタデータ) (2021-11-10T17:27:46Z) - Self-training with Few-shot Rationalization: Teacher Explanations Aid
Student in Few-shot NLU [88.8401599172922]
タスク固有のラベルと合理的性に制限された自己学習言語モデルに基づくフレームワークを開発する。
ニューラルネットワークの性能は,その合理的な予測を意識することで,大幅に向上できることを示す。
論文 参考訳(メタデータ) (2021-09-17T00:36:46Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。