論文の概要: Polymorphism Is Rotation: Operational Mechanistic Interpretability from a Two-Layer Transformer to Pythia-70m
- arxiv url: http://arxiv.org/abs/2605.24577v1
- Date: Sat, 23 May 2026 13:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.253583
- Title: Polymorphism Is Rotation: Operational Mechanistic Interpretability from a Two-Layer Transformer to Pythia-70m
- Title(参考訳): 多形は回転である:2層変換器からPythia-70mへの操作力学的解釈可能性
- Authors: Jordan F. McCann,
- Abstract要約: 独立に訓練された変圧器は、均一なランダム回転によって異なる残差ストリームベースで同じ関数を計算する。
この現象を多型と呼ぶ:同じ関数、相互に理解不能な内部座標である。
この現象は標準的なSAE測度には見えない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Independently trained transformers compute the same function in residual-stream bases that differ by a uniform random rotation on $\mathrm{SO}(d_{\mathrm{model}})$. We call this phenomenon polymorphism: same function, mutually unintelligible interior coordinates. One matrix multiplication per model pair removes it: an orthogonal Procrustes fit on a single batch of activations transfers sparse-autoencoder feature dictionaries and steering vectors between independently trained models, with no retraining. The phenomenon is invisible to the standard SAE universality metric. Decoder-column cosine similarity matches across seeds at 98%, the SAE-universality headline number, while an SAE trained on one seed reconstructs another seed's activations at negative explained variance, worse than predicting the constant mean. The decoder columns align; the encoder reads from a rotated frame. A single Procrustes rotation $R$ restores reconstruction to within 0.025 EV of the within-seed ceiling at every internal site. $R$ is Haar-distributed: $\|R - I\|_F$ matches the random-orthogonal prediction $\sqrt{2 d_{\mathrm{model}}}$ to 0.1% at $d_{\mathrm{model}} = 512$, and a Kolmogorov-Smirnov test of $R$'s eigenvalue spectrum against Haar $\mathrm{SO}(d_{\mathrm{model}})$ returns $p \approx 1.000$ pooled and per-pair. Diff-of-means steering vectors transfer in three regimes by alignment with $R$'s invariant subspace: clean when pinned by shared output weights, partial when overlapping the rotated subspace, inverted otherwise. With no shared I/O (Pythia), all three collapse to universally inverted. The same rotation account holds across training checkpoints within a single run. Validated on a 104k-parameter Dyck-3 transformer and nine independently-trained Pythia-70m seeds on The Pile, via a pre-registered four-bar operational framework. Frontier-scale (10B+) replication remains open.
- Abstract(参考訳): 独立に訓練された変換器は、$\mathrm{SO}(d_{\mathrm{model}})$ 上の一様ランダム回転によって異なる残ストリーム基底で同じ関数を計算する。
この現象を多型と呼ぶ:同じ関数、相互に理解不能な内部座標である。
直交のProcrustesが単一のアクティベーションバッチに適合し、スパースオートエンコーダの特徴辞書と独立に訓練されたモデル間のステアリングベクトルをリトレーニングすることなく転送する。
この現象は標準のSAE普遍性計量には見えない。
デコーダとカラムのコサインの類似性は種子間で98%、SAE-ユニバーシティーの見出し番号で一致し、一方の種子で訓練されたSAEは負の説明分散で別の種子の活性化を再現する。
デコーダ列は整列し、エンコーダは回転したフレームから読み取る。
プロクリストの回転1ドルR$は、すべての内部の天井の0.025 EV以内に復元される。
$R$ is Haar-distributed: $\|R - I\|_F$ match the random-orthogonal prediction $\sqrt{2 d_{\mathrm{model}}}$ to 0.1% at $d_{\mathrm{model}} = 512$, and a Kolmogorov-Smirnov test of $R$'s eigenvalue spectrum against Haar $\mathrm{SO}(d_{\mathrm{model}})$ return $p \approx 1.000$ pooled and per-pair。
Diff-of-means のステアリングベクトルは、R$の不変部分空間と整列して3つのレジームで移動する: 共有出力重みによってピン留めされたときにクリーン、回転した部分空間が重なり合うときに部分的に逆転する。
共有I/O (Pythia) がなければ、これら3つの崩壊は普遍的に逆転する。
同じローテーションアカウントは、単一の実行内でトレーニングチェックポイントを越えて保持する。
104kパラメーターのDyck-3トランスフォーマーと9つの独立訓練されたPythia-70mシードを、登録済みの4バーの運用フレームワークで検証した。
フロンティアスケール(10B+)のレプリケーションは引き続きオープンである。
関連論文リスト
- Hidden-State Privacy Has an Empty Middle [51.56484100374058]
すべてのフルランクガウス解放を$O(1)$ Fisher utility で表すと、マハラノビス信号が隠れた幅で直線的に成長する方向を認める。
スクラッチからトレーニングされたスプリットメモリトランスフォーマーは、[20, 33]$90MでG_mathrmMahに達し、固定言語損失ペナルティにおいて、30Mから1Bまでの同じ予算のGPTベースラインに対して6ドル~24ドルという優位性を維持する。
論文 参考訳(メタデータ) (2026-05-21T20:12:09Z) - The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations [50.43168858368539]
大規模言語モデルは自信を持って時代遅れの回答を生成し、既存の方法では検出できない。
これは工学的な失敗ではなく構造的な失敗であり、時間的ドリフトは、幾何的に残留流の方向として、正確性と不確実性の両方に符号化される。
論文 参考訳(メタデータ) (2026-05-09T22:27:31Z) - Mean-Pooled Cosine Similarity is Not Length-Invariant: Theory and Cross-Domain Evidence for a Length-Invariant Alternative [1.5718921092089344]
平均プールされたコサイン類似性は、言語、モダリティ、タスク間の神経表現を比較するためのデフォルトの指標である。
現代の変圧器表現を特徴づける異方性の下では、平均プールされたコサインは配列長で単調に成長する。
我々は、Centered Kernel Alignmentのような長さ不変のメトリクスは、クロス表現比較のデフォルトであるべきだと論じる。
論文 参考訳(メタデータ) (2026-05-08T06:48:34Z) - The E$Δ$-MHC-Geo Transformer: Adaptive Geodesic Operations with Guaranteed Orthogonality [2.28438857884398]
E$-MHC-Geo Transformerは、Manifold-Constrained Hyper-Connections (mHC)、Deep Delta Learning (DDL)、Cayley変換を統一する新しいアーキテクチャである。
論文 参考訳(メタデータ) (2026-05-07T11:37:23Z) - Dimensional Criticality at Grokking Across MLPs and Transformers [2.652953665748039]
異なる力学系間の急激な遷移は、複雑なシステムの目印である。
オフライン雪崩探査機 textbfTDU-OFC (Thresholded Diffusion Update--Olami-Feder-Christensen) を紹介する。
モジュラー加算と XOR で訓練された一般化を訓練したトランスフォーマーは、拡散ベースラインの局所的交差をD=1$で発見する。
論文 参考訳(メタデータ) (2026-04-06T13:43:20Z) - Anisotropic local law for non-separable sample covariance matrices [10.181748307494608]
サンプル共分散行列の局所法則を$K = N-1sum_i=1N g_ig_ig_i*$ とすると、Rn$ の確率ベクトル $g_1, ldots, g_N は共通共分散$$と独立である。
我々は,条件付き平均ゼロ分布,ランダム特徴モデル$g = (Xw)$,ガウス測度など,我々の仮定を満たす非分離例のクラスについて論じる。
論文 参考訳(メタデータ) (2026-02-20T03:28:51Z) - Robust inverse material design with physical guarantees using the Voigt-Reuss Net [0.0]
本稿では, ハード物理保証を伴う前方および逆機械的均質化のためのスペクトル正規化サロゲートを提案する。
バイファシック・マイクロ構造のオープンデータセット上の3次元線形弾性では、完全に接続されたVoigt-Reussネットは、236のイソトロピーインディスクリプタを持つFFTベースのラベルでトレーニングされている。
全体として、Voigt-Reussネットは、大バッチで制約に一貫性のある逆設計で正確で物理的に許容できる前方予測を統一する。
論文 参考訳(メタデータ) (2025-11-14T15:17:37Z) - Statistical Learning under Heterogeneous Distribution Shift [71.8393170225794]
ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
論文 参考訳(メタデータ) (2023-02-27T16:34:21Z) - On Submodular Contextual Bandits [92.45432756301231]
作用が基底集合の部分集合であり、平均報酬が未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。
Inverse Gap Weighting 戦略により,提案アルゴリズムは推定関数の局所的最適度を効率よくランダム化することを示す。
論文 参考訳(メタデータ) (2021-12-03T21:42:33Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。