論文の概要: Why Linear Interpretability Works: Invariant Subspaces as a Result of Architectural Constraints
- arxiv url: http://arxiv.org/abs/2602.09783v1
- Date: Tue, 10 Feb 2026 13:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.552229
- Title: Why Linear Interpretability Works: Invariant Subspaces as a Result of Architectural Constraints
- Title(参考訳): 線形解釈が機能する理由: 構造制約の結果としての不変部分空間
- Authors: Andres Saurez, Yousung Lee, Dongsoo Har,
- Abstract要約: 線形プローブとスパースオートエンコーダは変圧器表現から意味のある構造を常に復元することを示す。
我々はこれを EmphInvariant Subspace Necessity theorem として定式化し、emphSelf-Reference Property を導出する。
- 参考スコア(独自算出の注目度): 5.104181562775778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear probes and sparse autoencoders consistently recover meaningful structure from transformer representations -- yet why should such simple methods succeed in deep, nonlinear systems? We show this is not merely an empirical regularity but a consequence of architectural necessity: transformers communicate information through linear interfaces (attention OV circuits, unembedding matrices), and any semantic feature decoded through such an interface must occupy a context-invariant linear subspace. We formalize this as the \emph{Invariant Subspace Necessity} theorem and derive the \emph{Self-Reference Property}: tokens directly provide the geometric direction for their associated features, enabling zero-shot identification of semantic structure without labeled data or learned probes. Empirical validation in eight classification tasks and four model families confirms the alignment between class tokens and semantically related instances. Our framework provides \textbf{a principled architectural explanation} for why linear interpretability methods work, unifying linear probes and sparse autoencoders.
- Abstract(参考訳): 線形プローブとスパースオートエンコーダは、トランスフォーマー表現から意味のある構造を一貫して復元する。
変換器は線形インタフェース(注意OV回路、非埋め込み行列)を介して情報を伝達し、そのようなインタフェースを通してデコードされた意味的特徴は文脈不変な線形部分空間を占有しなければならない。
我々はこれを \emph{Invariant Subspace Necessity} 定理として定式化し、 \emph{Self-Reference Property} を導出する:トークンは関連する特徴に対して幾何学的方向を直接提供し、ラベル付きデータや学習プローブを使わずに意味構造のゼロショット識別を可能にする。
8つの分類タスクと4つのモデルファミリーにおける実証的検証は、クラストークンとセマンティック関連インスタンスのアライメントを確認する。
我々のフレームワークは、なぜ線形解釈可能性法が機能するのか、線形プローブとスパースオートエンコーダを統一するのかを、‘textbf{a principled architecture explanation} で説明する。
関連論文リスト
- Emergent Semantics Beyond Token Embeddings: Transformer LMs with Frozen Visual Unicode Representations [1.0152838128195467]
埋め込み層が完全に凍結されたTransformerモデルを構築します。
我々の手法は、Unicode中心の新しいトークン化器を含む任意のトークン化器と互換性がある。
トレーニング可能なセマンティックな埋め込みがないにもかかわらず、私たちのモデルは収束し、一貫性のあるテキストを生成します。
論文 参考訳(メタデータ) (2025-07-07T11:17:32Z) - Self-Attention as a Parametric Endofunctor: A Categorical Framework for Transformer Architectures [0.0]
我々は,自己意識の線形成分に着目したカテゴリー理論フレームワークを開発した。
クエリ、キー、値マップは自然に2-圏 $mathbfPara(Vect)$ のパラメトリック 1-同型を定義することを示す。
複数の自己アテンション層を積み重ねると、このエンドファウンタ上の自由モナドが構築される。
論文 参考訳(メタデータ) (2025-01-06T11:14:18Z) - Hitting "Probe"rty with Non-Linearity, and More [2.1756081703276]
我々は, 非線形構造プローブの設計を簡素化し, 効果的に設計する。
文中の2つの単語が、予測された依存木にどれだけ強く結びついているかを定性的に評価する。
放射基底関数(RBF)はBERTモデルに対して有効な非線形プローブであることがわかった。
論文 参考訳(メタデータ) (2024-02-25T18:33:25Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Semi-Supervised Manifold Learning with Complexity Decoupled Chart Autoencoders [45.29194877564103]
本研究は、クラスラベルなどの半教師付き情報を付加できる非対称符号化復号プロセスを備えたチャートオートエンコーダを導入する。
このようなネットワークの近似力を議論し、周囲空間の次元ではなく、本質的にデータ多様体の内在次元に依存する境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T19:58:03Z) - Frame Averaging for Equivariant Shape Space Learning [85.42901997467754]
形状空間学習に対称性を組み込む自然な方法は、形状空間(エンコーダ)への写像と形状空間(デコーダ)からの写像が関連する対称性に同値であることを問うことである。
本稿では,2つのコントリビューションを導入することで,エンコーダとデコーダの等価性を組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-03T06:41:19Z) - A Non-Linear Structural Probe [43.50268085775569]
本研究では,文脈表現における構文構造の符号化を研究対象とする構造プローブの事例について検討する。
構造プローブが計量を学習するのを観察して、それをカーネル化し、新しい非線形変種を開発することができる。
我々は6つの言語でテストを行い、ラジアル基底関数(RBF)カーネルが正規化とともに統計的に有意な改善が得られた。
論文 参考訳(メタデータ) (2021-05-21T07:53:10Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - Deep Hough Transform for Semantic Line Detection [70.28969017874587]
自然の場面で意味のある線構造、つまり意味的な線を検知する基本的なタスクに焦点をあてる。
従来の手法は線の性質を無視し、準最適性能をもたらす。
行検出のためのワンショットエンドツーエンド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-10T13:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。