論文の概要: How Do Transformers Learn to Associate Tokens: Gradient Leading Terms Bring Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2601.19208v1
- Date: Tue, 27 Jan 2026 05:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.186674
- Title: How Do Transformers Learn to Associate Tokens: Gradient Leading Terms Bring Mechanistic Interpretability
- Title(参考訳): トランスフォーマーはどのようにしてアソシエイトトークンを学ぶか: グラディエントリード用語はメカニスティックな解釈性をもたらす
- Authors: Shawn Im, Changdae Oh, Zhen Fang, Sharon Li,
- Abstract要約: 我々は、注目に基づく言語モデルにおいて、自然言語データから関連性がどのように現れるかを分析する。
変換器の各重みの集合は、3つの基底関数の単純合成として閉形式表現を持つことを明らかにした。
- 参考スコア(独自算出の注目度): 17.091330039972274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic associations such as the link between "bird" and "flew" are foundational for language modeling as they enable models to go beyond memorization and instead generalize and generate coherent text. Understanding how these associations are learned and represented in language models is essential for connecting deep learning with linguistic theory and developing a mechanistic foundation for large language models. In this work, we analyze how these associations emerge from natural language data in attention-based language models through the lens of training dynamics. By leveraging a leading-term approximation of the gradients, we develop closed-form expressions for the weights at early stages of training that explain how semantic associations first take shape. Through our analysis, we reveal that each set of weights of the transformer has closed-form expressions as simple compositions of three basis functions (bigram, token-interchangeability, and context mappings), reflecting the statistics of the text corpus and uncovering how each component of the transformer captures semantic associations based on these compositions. Experiments on real-world LLMs demonstrate that our theoretical weight characterizations closely match the learned weights, and qualitative analyses further show how our theorem shines light on interpreting the learned associations in transformers.
- Abstract(参考訳): バード」と「フリュー」のリンクのような意味的関連性は、モデルが暗記を超えて一般化し、コヒーレントテキストを生成することを可能にするため、言語モデリングの基盤となる。
これらの関連が言語モデルでどのように学習され、どのように表現されるかを理解することは、深層学習と言語理論を結びつけ、大きな言語モデルのための力学基盤を開発するために不可欠である。
本研究では、これらの関連が、注意に基づく言語モデルにおける自然言語データから、学習力学のレンズを通してどのように現れるかを分析する。
勾配の長期近似を利用して, 学習の初期段階における重みの閉形式表現を開発し, 意味的関連がまずどのように形成されるかを説明する。
解析の結果,変換器の重みの集合は3つの基本関数(ビグラム,トークン交換可能性,コンテキストマッピング)の単純な構成として閉形式表現を持ち,テキストコーパスの統計を反映し,変換器の各成分がそれらの構成に基づいて意味的関連を捉える方法を明らかにする。
実世界のLLMに関する実験では、我々の理論的な重量特性が学習された重量と密接に一致していることが示され、定性的解析により、我々の定理がトランスフォーマーにおける学習された関連の解釈にどのように光を当てるかが示される。
関連論文リスト
- Large Language Models as Model Organisms for Human Associative Learning [9.196745903193609]
認知神経科学関連学習パラダイムに適応し、6つのモデルで表現がどのように進化するかを考察する。
初期所見では非単調な塑性仮説と一致した非単調なパターンがみられた。
高い語彙干渉は差別を増幅し、表現的変化はアイテムの類似性とグローバルな競合の両方に影響されることが示唆された。
論文 参考訳(メタデータ) (2025-10-24T12:52:11Z) - Beyond the Rosetta Stone: Unification Forces in Generalization Dynamics [56.145578792496714]
大規模言語モデル(LLM)は言語間知識伝達に苦慮している。
我々は,この現象の原因とダイナミクスを,合成多言語データセット上でスクラッチから小さなトランスフォーマーモデルを訓練することによって研究する。
論文 参考訳(メタデータ) (2025-08-14T18:44:13Z) - A Markov Categorical Framework for Language Modeling [9.910562011343009]
自己回帰言語モデルは、優れたパフォーマンスを達成するが、内部メカニズム、訓練が表現をどのように形作り、複雑な振る舞いを可能にするかを説明する統一理論は、いまだ解明されていない。
本稿では,マルコフカテゴリーの言語を用いた情報処理段階の合成として,単一ステップ生成過程をモデル化する新しい分析フレームワークを提案する。
この研究は、モデルを通して情報がどのように流れ、訓練対象が内部形状をどう形成するかを理解するための強力な新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-07-25T13:14:03Z) - TRACE for Tracking the Emergence of Semantic Representations in Transformers [10.777646083061395]
本稿では,トランスフォーマーに基づくLMにおける位相遷移を検出するために,幾何学的,情報的,言語的信号を組み合わせた診断フレームワークTRACEを紹介する。
実験により、位相遷移は曲率崩壊と寸法安定化の明確な交点と一致し、これらの幾何学的シフトは、新たな構文的および意味論的精度と一致することが明らかになった。
この研究は、モデル解釈可能性、訓練効率、構成一般化に関する洞察を提供することで、言語的抽象がLMにどのように現れるかの理解を深める。
論文 参考訳(メタデータ) (2025-05-23T15:03:51Z) - Geometry of Semantics in Next-Token Prediction: How Optimization Implicitly Organizes Linguistic Representations [34.88156871518115]
Next-token Prediction (NTP) 最適化により、言語モデルがテキストから意味構造を抽出し、整理する。
我々は、より大きな特異値に対応する概念が訓練中に学習され、自然な意味階層が生成されることを示した。
この洞察は、解釈可能なセマンティックカテゴリを識別するための概念記号を組み合わせる方法である、オーサントベースのクラスタリングを動機付けている。
論文 参考訳(メタデータ) (2025-05-13T08:46:04Z) - Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers [49.80959223722325]
本研究では,大規模言語モデルにおけるフィードフォワード層とアテンション層との区別について検討する。
フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Linearity of Relation Decoding in Transformer Language Models [82.47019600662874]
トランスフォーマー言語モデル(LM)で符号化された知識の多くは、関係性の観点から表現することができる。
関係のサブセットに対して、この計算は対象表現上の1つの線形変換によってよく近似されることを示す。
論文 参考訳(メタデータ) (2023-08-17T17:59:19Z) - Oracle Linguistic Graphs Complement a Pretrained Transformer Language
Model: A Cross-formalism Comparison [13.31232311913236]
言語グラフ表現が神経言語モデリングを補完し改善する程度について検討する。
全体としては、セマンティックな選挙区構造は言語モデリングのパフォーマンスに最も有用である。
論文 参考訳(メタデータ) (2021-12-15T04:29:02Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。