論文の概要: Transformers converge to invariant algorithmic cores
- arxiv url: http://arxiv.org/abs/2602.22600v1
- Date: Thu, 26 Feb 2026 04:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.520536
- Title: Transformers converge to invariant algorithmic cores
- Title(参考訳): 変圧器は不変アルゴリズムコアに収束する
- Authors: Joshua S. Schiffman,
- Abstract要約: GPT-2言語モデルは、単一の軸によって主語と動詞の一致を制御し、反転すると、スケールをまたいだ文法番号を反転させる。
機械的解釈可能性(Mechanistic interpretability)は、実装固有の詳細ではなく、計算の本質であるそのような不変量をターゲットにすることの恩恵を受ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models exhibit sophisticated capabilities, yet understanding how they work internally remains a central challenge. A fundamental obstacle is that training selects for behavior, not circuitry, so many weight configurations can implement the same function. Which internal structures reflect the computation, and which are accidents of a particular training run? This work extracts algorithmic cores: compact subspaces necessary and sufficient for task performance. Independently trained transformers learn different weights but converge to the same cores. Markov-chain transformers embed 3D cores in nearly orthogonal subspaces yet recover identical transition spectra. Modular-addition transformers discover compact cyclic operators at grokking that later inflate, yielding a predictive model of the memorization-to-generalization transition. GPT-2 language models govern subject-verb agreement through a single axis that, when flipped, inverts grammatical number throughout generation across scales. These results reveal low-dimensional invariants that persist across training runs and scales, suggesting that transformer computations are organized around compact, shared algorithmic structures. Mechanistic interpretability could benefit from targeting such invariants -- the computational essence -- rather than implementation-specific details.
- Abstract(参考訳): 大きな言語モデルは高度な能力を示すが、内部でどのように機能するかを理解することは、依然として中心的な課題である。
基本的な障害は、トレーニングが回路ではなく行動を選択するため、多くの重み設定が同じ機能を実装することができることである。
どの内部構造が計算を反映し、特定のトレーニング実行の事故を反映しているのか?
この研究はアルゴリズムのコアを抽出する: コンパクトな部分空間はタスクのパフォーマンスに十分である。
独立に訓練されたトランスフォーマーは異なる重みを学習するが、同じコアに収束する。
マルコフ連鎖変換器は、ほぼ直交部分空間に3Dコアを埋め込むが、同じ遷移スペクトルを回復する。
モジュラー加法変換器は、後にインフレするグルーキングにおいてコンパクトな巡回作用素を発見し、記憶から一般化への遷移の予測モデルを生成する。
GPT-2言語モデルは、単一の軸によって主語と動詞の一致を制御し、フリップすると、スケールをまたいだ世代を通して文法番号を反転させる。
これらの結果は、トレーニング実行とスケールにわたって持続する低次元不変量を示し、トランスフォーマー計算は、コンパクトで共有されたアルゴリズム構造を中心に構成されていることを示唆している。
機械的解釈可能性(Mechanistic interpretability)は、実装固有の詳細ではなく、計算の本質であるそのような不変量をターゲットにすることの恩恵を受ける。
関連論文リスト
- Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks [0.0]
本稿では, 数値計算を慎重に制御し, 変圧器モデルにおける学習力学の構造について検討する。
その結果,トランスフォーマー学習を理解するための統一的な幾何学的枠組みが示唆された。
論文 参考訳(メタデータ) (2026-02-11T03:57:46Z) - Beyond Components: Singular Vector-Based Interpretability of Transformer Circuits [22.333229451408414]
トランスフォーマーベースの言語モデルは複雑で分散した振る舞いを示すが、内部計算はあまり理解されていない。
既存の解釈可能性法は、注意頭と多層パーセプトロン層(MLP)を識別不能単位として扱い、その内部で学習された機能的サブ構造の可能性を見越す。
よりきめ細かい視点を導入し、これらの成分を特異な方向に分解し、重畳された独立な計算を1つのヘッドまたはメカニスティック内で明らかにする。
論文 参考訳(メタデータ) (2025-11-25T12:59:15Z) - Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights [47.62295798627317]
この研究は、多様体上のノイズの多い入力データを含む回帰タスクにおける変換器の性能を分析することによって理論的基礎を確立する。
我々は、多様体の内在次元に決定的に依存する近似と一般化誤差を証明した。
この結果から,入力データに高次元ノイズが伴う場合においても,学習課題における低複雑さ構造を活用できることが示唆された。
論文 参考訳(メタデータ) (2025-05-06T05:41:46Z) - Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。