論文の概要: Probing Neural Topology of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.01042v1
- Date: Sun, 01 Jun 2025 14:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.906193
- Title: Probing Neural Topology of Large Language Models
- Title(参考訳): 大規模言語モデルのニューラルトポロジーの探索
- Authors: Yu Zheng, Yuan Yuan, Yong Li, Paolo Santi,
- Abstract要約: LLMニューロンの機能的接続トポロジーを明らかにするためのグラフ探索法を提案する。
ニューラルトポロジのみを用いて次点予測性能の普遍的予測可能性を求める。
この予測可能性は、わずか8段階の事前訓練の後、ニューロン接続のわずか1%を維持したり、モデルを探したりしても堅牢である。
- 参考スコア(独自算出の注目度): 15.34202977968525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probing large language models (LLMs) has yielded valuable insights into their internal mechanisms by linking neural representations to interpretable semantics. However, how neurons functionally co-activate with each other to give rise to emergent capabilities remains largely unknown, hindering a deeper understanding and safer development of LLMs. In this work, we introduce graph probing, a method for uncovering the functional connectivity topology of LLM neurons and relating it to language generation performance. By analyzing internal neural graphs across diverse LLM families and scales, we discover a universal predictability of next-token prediction performance using only neural topology. This predictability is robust even when retaining just 1% of neuron connections or probing models after only 8 pretraining steps, highlighting the sparsity and early emergence of topological patterns. Further graph matching analysis suggests that, despite significant distinctions in architectures, parameters, and training data, different LLMs develop intricate and consistent neural topological structures that may form the foundation for their language generation abilities. Codes and data for the graph probing toolbox are released at https://github.com/DavyMorgan/llm-graph-probing.
- Abstract(参考訳): 大規模言語モデル(LLM)の探索は、神経表現と解釈可能な意味論を結びつけることによって、その内部メカニズムに関する貴重な洞察を得た。
しかし、ニューロンが互いに機能的に共活性化して創発的能力をもたらす方法はほとんど不明であり、LSMのより深い理解とより安全な開発を妨げる。
本研究では,LLMニューロンの機能的接続トポロジを探索し,言語生成性能に関連するグラフ探索手法を提案する。
様々なLLMファミリーとスケールにわたる内部神経グラフを解析することにより、ニューラルトポロジのみを用いて次トーケン予測性能の普遍的な予測可能性を発見する。
この予測可能性(英語版)は、わずか8段階の事前訓練の後、わずか1%のニューロン接続を維持したり、モデルを探したりしても頑健であり、トポロジカルなパターンの空間性と早期の出現を浮き彫りにする。
さらなるグラフマッチング分析は、アーキテクチャ、パラメータ、およびトレーニングデータに大きな違いがあるにもかかわらず、異なるLLMは、言語生成能力の基礎となる、複雑で一貫した神経トポロジ構造を発達させることを示唆している。
グラフ探索ツールボックスのコードとデータはhttps://github.com/DavyMorgan/llm-graph-probing.comで公開されている。
関連論文リスト
- Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-31T12:33:26Z) - Improving Neuron-level Interpretability with White-box Language Models [11.898535906016907]
我々は、CRATE(Coding RAte TransformEr)という、ホワイトボックストランスフォーマーのようなアーキテクチャを導入する。
包括的実験では、ニューロンレベルの解釈可能性において、顕著な改善(最大103%の相対的な改善)が見られた。
CRATEの解釈可能性の向上は、関連するトークンを一貫して一意に活性化する能力の強化によるものである。
論文 参考訳(メタデータ) (2024-10-21T19:12:33Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - How Graph Neural Networks Learn: Lessons from Training Dynamics [80.41778059014393]
グラフニューラルネットワーク(GNN)の関数空間におけるトレーニングダイナミクスについて検討する。
GNNの勾配勾配勾配最適化は暗黙的にグラフ構造を利用して学習関数を更新する。
この発見は、学習したGNN関数が一般化した時期と理由に関する新たな解釈可能な洞察を提供する。
論文 参考訳(メタデータ) (2023-10-08T10:19:56Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Analyzing Individual Neurons in Pre-trained Language Models [41.07850306314594]
言語的タスクを予測できるニューロンのサブセットは、より少ないニューロンに局所化される低いレベルタスクと、より高いレベルの構文予測タスクとがある。
例えば、XLNet のニューロンは、BERT などの特性を予測する際により局所化され、解離し、より分散され、結合される。
論文 参考訳(メタデータ) (2020-10-06T13:17:38Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。