Fugu-MT 論文翻訳(概要): Modeling Transformers as complex networks to analyze learning dynamics

論文の概要: Modeling Transformers as complex networks to analyze learning dynamics

arxiv url: http://arxiv.org/abs/2509.15269v1
Date: Thu, 18 Sep 2025 10:20:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-22 18:18:10.836106
Title: Modeling Transformers as complex networks to analyze learning dynamics
Title（参考訳）: 学習力学解析のための複雑なネットワークとしてのトランスフォーマーのモデル化
Authors: Elisabetta Rocchetti,
Abstract要約: 本研究は,複雑なネットワーク理論のレンズを用いて,動的学習を特徴付けることができるかどうかを考察する。ノードがモデルの計算コンポーネントである有向重み付きグラフとして、トランスフォーマーベースのモデルを表現するための新しい手法を紹介します。グラフ理論の一連のメトリクスを分析して、ネットワークの構造が探索、統合、洗練の異なるフェーズを通して進化することを明らかにする。
参考スコア（独自算出の注目度）: 0.2538209532048867
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The process by which Large Language Models (LLMs) acquire complex capabilities during training remains a key open question in mechanistic interpretability. This project investigates whether these learning dynamics can be characterized through the lens of Complex Network Theory (CNT). I introduce a novel methodology to represent a Transformer-based LLM as a directed, weighted graph where nodes are the model's computational components (attention heads and MLPs) and edges represent causal influence, measured via an intervention-based ablation technique. By tracking the evolution of this component-graph across 143 training checkpoints of the Pythia-14M model on a canonical induction task, I analyze a suite of graph-theoretic metrics. The results reveal that the network's structure evolves through distinct phases of exploration, consolidation, and refinement. Specifically, I identify the emergence of a stable hierarchy of information spreader components and a dynamic set of information gatherer components, whose roles reconfigure at key learning junctures. This work demonstrates that a component-level network perspective offers a powerful macroscopic lens for visualizing and understanding the self-organizing principles that drive the formation of functional circuits in LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)が訓練中に複雑な能力を獲得するプロセスは、機械的解釈可能性において重要な問題である。本研究は,複雑なネットワーク理論 (CNT) のレンズを用いて,これらの学習力学を特徴付けることができるかどうかを考察する。本稿では,Transformer をベースとした LLM を,ノードがモデルの計算成分(アテンションヘッドと MLP)であり,エッジが因果的影響を表す有向重み付きグラフとして表現する手法を提案する。標準誘導タスクにおけるPythia-14Mモデルの143のトレーニングチェックポイントにおけるこの成分グラフの進化を追跡することにより、グラフ理論メトリクスのスイートを解析する。その結果、ネットワークの構造は、探索、統合、改良の異なる段階を通して進化することが明らかとなった。具体的には、情報スプレッダーコンポーネントの安定した階層と、キーラーニングでの役割を再設定する情報収集コンポーネントの動的集合の出現を識別する。この研究は、LLMにおける機能回路の形成を駆動する自己組織化原理を可視化し理解するために、コンポーネントレベルのネットワークパースペクティブが強力なマクロスコピックレンズを提供することを示した。

関連論文リスト

KPFlow: An Operator Perspective on Dynamic Collapse Under Gradient Descent Training of Recurrent Networks [9.512147747894026]
勾配流を2つの作用素を含む積に分解する方法を示す。それらの相互作用がGDの下での低次元潜在力学にどのように影響するかを示す。マルチタスクトレーニングでは,各サブタスクの目的がどのように一致しているかを演算子を用いて測定できることが示される。
論文参考訳（メタデータ） (2025-07-08T20:33:15Z)
Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。 CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。本研究は,合成セマンティクス処理とモデル解釈可能性に関する,現在のトランスフォーマーアーキテクチャの基本的制約を明らかにする。
論文参考訳（メタデータ） (2024-10-16T18:10:50Z)
Differentiation and Specialization of Attention Heads via the Refined Local Learning Coefficient [0.49478969093606673]
特異学習理論に基づくモデル複雑性の尺度である局所学習係数 (LLC) の洗練された変種を導入する。本研究では,トランスフォーマー言語モデルにおける内部構造の開発について検討する。
論文参考訳（メタデータ） (2024-10-03T20:51:02Z)
Learning Multiscale Consistency for Self-supervised Electron Microscopy Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文参考訳（メタデータ） (2023-08-19T05:49:13Z)
Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文参考訳（メタデータ） (2022-10-07T17:56:53Z)
SIM-Trans: Structure Information Modeling Transformer for Fine-grained Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文参考訳（メタデータ） (2022-08-31T03:00:07Z)
Meta-learning using privileged information for dynamics [66.32254395574994]
Neural ODE Processモデルを拡張して、Learning Using Privileged Information設定内の追加情報を使用します。シミュレーション動的タスクの精度とキャリブレーションを向上した実験により拡張性を検証する。
論文参考訳（メタデータ） (2021-04-29T12:18:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。