論文の概要: NeuronScope: A Multi-Agent Framework for Explaining Polysemantic Neurons in Language Models
- arxiv url: http://arxiv.org/abs/2601.03671v1
- Date: Wed, 07 Jan 2026 07:50:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.153065
- Title: NeuronScope: A Multi-Agent Framework for Explaining Polysemantic Neurons in Language Models
- Title(参考訳): NeuronScope:言語モデルにおける多意味神経の説明のための多言語フレームワーク
- Authors: Weiqi Liu, Yongliang Miao, Haiyan Zhao, Yanguang Liu, Mengnan Du,
- Abstract要約: NeuronScopeは、反復的活性化誘導過程としてニューロン解釈を再構成するマルチエージェントフレームワークである。
我々は,NeuronScopeが隠れた多意味性を解明し,シングルパスベースラインと比較して高いアクティベーション相関を持つ説明を生成することを示した。
- 参考スコア(独自算出の注目度): 24.550940304055562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neuron-level interpretation in large language models (LLMs) is fundamentally challenged by widespread polysemanticity, where individual neurons respond to multiple distinct semantic concepts. Existing single-pass interpretation methods struggle to faithfully capture such multi-concept behavior. In this work, we propose NeuronScope, a multi-agent framework that reformulates neuron interpretation as an iterative, activation-guided process. NeuronScope explicitly deconstructs neuron activations into atomic semantic components, clusters them into distinct semantic modes, and iteratively refines each explanation using neuron activation feedback. Experiments demonstrate that NeuronScope uncovers hidden polysemanticity and produces explanations with significantly higher activation correlation compared to single-pass baselines.
- Abstract(参考訳): 大型言語モデル(LLM)におけるニューロンレベルの解釈は、個々のニューロンが複数の異なる意味概念に反応する多意味性によって根本的に困難である。
既存のシングルパス解釈手法は、そのようなマルチコンセプトの振る舞いを忠実に捉えるのに苦労する。
本研究では,ニューロン解釈を反復的,活性化誘導的プロセスとして再構成するマルチエージェントフレームワークであるNeuronScopeを提案する。
NeuronScopeは、ニューロンの活性化を明示的に原子意味コンポーネントに分解し、それらを異なるセマンティックモードに分解し、ニューロンの活性化フィードバックを使用して各説明を反復的に洗練する。
実験により、NeuronScopeは隠れた多意味性を明らかにし、シングルパスベースラインと比較して非常に高いアクティベーション相関を持つ説明を生成する。
関連論文リスト
- Neuronal Group Communication for Efficient Neural representation [85.36421257648294]
本稿では, 効率的な, モジュラー, 解釈可能な表現を学習する, 大規模ニューラルシステムの構築方法に関する問題に対処する。
本稿では、ニューラルネットワークを相互作用する神経群の動的システムとして再認識する理論駆動型フレームワークである神経グループ通信(NGC)を提案する。
NGCは、重みを埋め込みのようなニューロン状態間の過渡的な相互作用として扱い、神経計算はニューロン群間の反復的なコミュニケーションを通じて展開する。
論文 参考訳(メタデータ) (2025-10-19T14:23:35Z) - NOBLE -- Neural Operator with Biologically-informed Latent Embeddings to Capture Experimental Variability in Biological Neuron Models [63.592664795493725]
NOBLEは、解釈可能なニューロンの特徴を連続周波数変調した埋め込みから電流注入によって誘導されるソマティック電圧応答へのマッピングを学ぶ神経オペレーターフレームワークである。
内在的な実験変数を考慮したニューラルダイナミクスの分布を予測する。
NOBLEは、その一般化を実際の実験データで検証する最初の大規模ディープラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T01:01:18Z) - Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution [16.460751105639623]
高度に正常なニューロンでも,多節性行動が持続的に発現していることが示される。
この観察は、ニューロンの属性からレンジベースの解釈へのシフトを動機付けている。
本稿では,新しいレンジベースの解釈・操作フレームワークであるNeuronLensを紹介する。
論文 参考訳(メタデータ) (2025-02-04T03:33:55Z) - Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
神経科学とAIの両方では、ニューロン間の'バインディング'が、ネットワークの深い層においてより抽象的な概念を表現するために表現を圧縮する、競争的な学習の形式につながることが知られている。
完全に接続された畳み込みや注意機構などの任意の接続設計とともに人工的再考を導入する。
このアイデアは、教師なしオブジェクト発見、敵対的ロバスト性、不確実性、定量化、推論など、幅広いタスクにわたるパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2024-10-17T17:47:54Z) - Learning from Emergence: A Study on Proactively Inhibiting the Monosemantic Neurons of Artificial Neural Networks [10.390475063385756]
オンライン計算の効率性を保証するため,ニューロンのモノセマンティリティを測定するための新しい指標を提案する。
モノセマンティリティが異なるモデルスケールで性能変化をもたらすという予想を検証する。
論文 参考訳(メタデータ) (2023-12-17T14:42:46Z) - Disentangling Neuron Representations with Concept Vectors [0.0]
本研究の主な貢献は, 異なる特徴をカプセル化した概念ベクトルに多面体ニューロンをアンタングル化する手法である。
評価の結果,概念ベクトルはコヒーレントで人間に理解可能な特徴をエンコードしていることがわかった。
論文 参考訳(メタデータ) (2023-04-19T14:55:31Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。