論文の概要: Concepts Whisper While Syntax Shouts: Spectral Anti-Concentration and the Dual Geometry of Transformer Representations
- arxiv url: http://arxiv.org/abs/2605.01609v1
- Date: Sat, 02 May 2026 21:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.850074
- Title: Concepts Whisper While Syntax Shouts: Spectral Anti-Concentration and the Dual Geometry of Transformer Representations
- Title(参考訳): シンタクスシュートにおける概念whisper:スペクトル反集中と変換器表現の双対幾何学
- Authors: Pratyush Acharya, Nuraj Rimal, Habish Dhakal,
- Abstract要約: 5つのアーキテクチャファミリにまたがる残留ストリーム差分ベクトルでは,反集束が観察される。
その結果、コンテクスト化された処理中に意味内容をスペクトル的に静かな領域に回転させることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We test whether the causal inner product of \citet{park2024linear} -- defined by the unembedding covariance $Σ$ -- enables cross-lingual concept transport. Across 17 models and 4 language pairs, a matched-spectrum randomization test finds that Whitened Causal Alignment is indistinguishable from spectral regularization alone ($p = 0.95$). However, this failure reveals a broader phenomenon: anti-concentration is observed in residual-stream difference-of-means vectors across five architecture families ($p < 10^{-33}$) and supported by SAE features (e.g., $p = 4.5 \times 10^{-19}$) and linear probes on Gemma and Llama. We discover a \emph{dual geometry}: activation-space concept directions anti-concentrate in the spectral tail, while static unembedding-row contrasts \emph{concentrate} in high-variance directions ($p < 10^{-4}$). Split-injection causal interventions support the functional basis on Gemma and Llama (Cohen's $d$ up to $1.80$), and POS-tag probing across 8 models shows syntax preferentially encodes in the high-variance subspace in 6 of 8 architectures ($p < 0.013$), with the Qwen~2.5 family showing a significant reversal consistent with architecture-specific spectral structure. These results suggest transformers may rotate semantic content into spectrally quiet regions during contextualized processing, encoding concepts where they can be manipulated with reduced grammatical disruption.
- Abstract(参考訳): 我々は、非埋め込み共分散$Σ$で定義される \citet{park2024linear} の因果内積が、言語間概念輸送を可能にするかどうかをテストする。
17のモデルと4つの言語ペアで一致したスペクトルランダム化テストにより、ホワイト付き因果アライメントはスペクトル正規化だけでは区別できない(p = 0.95$)。
しかし、この失敗はより広範な現象を明らかにしている: アンチ集中は、5つのアーキテクチャファミリ(p < 10^{-33}$)の残留ストリーム差分ベクトルで観測され、SAE特徴(例えば、$p = 4.5 \times 10^{-19}$)とGemma と Llama 上の線形プローブによって支持される。
アクティベーション空間の概念はスペクトルの尾部において反集中的であるのに対して、静的なアンエンベディング・ロウのコントラストは高分散方向(p < 10^{-4}$)である。
分割インジェクションの因果的介入はGemmaとLlama(コーエンの$d$から$1.80$まで)の機能的基盤をサポートし、8つのモデルにわたるPOSタグの探索は8つのアーキテクチャのうち6つのアーキテクチャ(p < 0.013$)で高分散部分空間の構文が優先的に符号化されていることを示している。
これらの結果から, 意味的コンテンツを文脈的処理中にスペクトル的に静かな領域に回転させ, 文法的破壊を減らして操作できる概念を符号化できる可能性が示唆された。
関連論文リスト
- Tight Convergence Rates for Online Distributed Linear Estimation with Adversarial Measurements [66.94250413799232]
分散パラメータ-サーバ-ワーカー設定における乱数ベクトル$X$の推定について検討する。
主な課題は、敵の計測と非同期である。
その結果, 分散線形推定におけるロバスト性, 識別性, 統計的効率の統一的有限時間評価が得られた。
論文 参考訳(メタデータ) (2026-04-07T11:45:55Z) - The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason [4.28787537081191]
大規模言語モデルでは, 推論と事実的リコールに係わる場合, 隠れたアクティベーション空間において, 音声の位相遷移が現れることがわかった。
我々は、トランスフォーマーにおける推論の包括的遠近法理論を確立し、思考の幾何学が方向性において普遍的であり、アーキテクチャに特有であり、結果の予測であることを示した。
論文 参考訳(メタデータ) (2026-04-03T09:18:57Z) - Spectral Edge Dynamics of Training Trajectories: Signal--Noise Geometry Across Scales [0.0]
コンヒーレントな方向のみにおいてトランスフォーマー訓練軌道が発展することを示す。
共同作業では、同じスペクトル幾何学がグラッキングの早期警戒信号を提供する。
論文 参考訳(メタデータ) (2026-03-14T04:46:05Z) - Tethered Reasoning: Decoupling Entropy from Hallucination in Quantized LLMs via Manifold Steering [0.0]
量子化言語モデルは基本的なジレンマに直面し、低いサンプリング温度は繰り返しモード崩壊した出力を発生させ、一方高温(T > 2.0)は軌道分岐と意味的不整合を引き起こす。
隠れ状態軌跡を事前に計算した真性多様体にテザリングすることで、幻覚から出力エントロピーを分離するフレームワークであるHELIXを提案する。
論文 参考訳(メタデータ) (2026-02-06T06:24:37Z) - Robust inverse material design with physical guarantees using the Voigt-Reuss Net [0.0]
本稿では, ハード物理保証を伴う前方および逆機械的均質化のためのスペクトル正規化サロゲートを提案する。
バイファシック・マイクロ構造のオープンデータセット上の3次元線形弾性では、完全に接続されたVoigt-Reussネットは、236のイソトロピーインディスクリプタを持つFFTベースのラベルでトレーニングされている。
全体として、Voigt-Reussネットは、大バッチで制約に一貫性のある逆設計で正確で物理的に許容できる前方予測を統一する。
論文 参考訳(メタデータ) (2025-11-14T15:17:37Z) - Clustered Switchback Designs for Experimentation Under Spatio-temporal Interference [44.644520116360106]
我々は, 平均治療効果 (GATE) を推定し, 全単位を常に治療やコントロールに曝露した平均結果の差を推定した。
そこで我々は,単位をクラスタにグループ化し,時間ステップをブロックにグループ化する,クラスタ化されたスイッチバック設計を提案する。
良好なクラスタリングを許容するグラフに対して, トラッピングされたHorvitz-Thompson推定器が$tilde O(1/NT)$平均二乗誤差(MSE)を達成することを示す。
我々の結果は、citethu2022switchback、ugander2013graph、citetleung2022rateの結果を同時に一般化する。
論文 参考訳(メタデータ) (2023-12-25T01:00:58Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Minimum optical depth multiport interferometers for approximating arbitrary unitary operations and pure states [37.69303106863453]
我々は、マルチポート干渉計を用いて、純状態の準備とユニタリ操作を与えられた不忠実さで近似する問題に対処する。
数値計算により、任意の次元$d$の純粋な状態が不忠実で作成できることが示される。
論文 参考訳(メタデータ) (2020-02-04T15:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。