論文の概要: Spectral Archaeology: The Causal Topology of Model Evolution
- arxiv url: http://arxiv.org/abs/2601.03424v1
- Date: Tue, 06 Jan 2026 21:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.07586
- Title: Spectral Archaeology: The Causal Topology of Model Evolution
- Title(参考訳): スペクトル考古学 : モデル進化の因果トポロジー
- Authors: Valentin Noël,
- Abstract要約: 振る舞いベンチマークは、モデルが何をするかをTextithowに教えてくれますが、textithowではありません。
本研究では,アテンショングラフスペクトルを用いた無トレーニングメカニスティックプローブを提案する。
12のモデルと10の言語にまたがって、標準評価で欠落した不連続を露呈する「安定な指紋」が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral benchmarks tell us \textit{what} a model does, but not \textit{how}. We introduce a training-free mechanistic probe using attention-graph spectra. Treating each layer as a token graph, we compute algebraic connectivity ($λ_2$), smoothness, and spectral entropy. Across 12 models and 10 languages, these measures yield stable ``spectral fingerprints'' that expose discontinuities missed by standard evaluation. We report four results. (1) Models undergoing specific curriculum transitions (e.g., code-to-chat) show an English-only, syntax-triggered connectivity failure on non-canonical constructions, reaching $Δλ_2 \approx -0.76$. We term this scar \textit{Passive-Triggered Connectivity Collapse} (PTCC). Analysis of the Phi lineage reveals that PTCC appears and resolves across developmental stages, implicating brittle curriculum shifts rather than synthetic data per se. (2) PTCC reflects a specialization trade-off: strengthened formal routing at the expense of stylistic flexibility. (3) We identify four recurrent processing strategies; simple frozen-threshold rules enable perfect forensic identification across lineages. (4) Mechanistically, PTCC localizes to a sparse Layer 2 ``compensatory patch'' of heads that fails under syntactic stress; activation steering can partially restore connectivity, recovering $\approx 38\%$ of lost information flow. Finally, dominant topological regimes track tokenization density more than language identity, suggesting ``healthy'' geometry varies systematically across scripts. Overall, attention-graph spectra provide a practical tool for auditing and training-regime verification.
- Abstract(参考訳): 振る舞いベンチマークでは、モデルがやっているが、‘textit{how}’ではないことを教えてくれます。
本研究では,アテンショングラフスペクトルを用いた無トレーニングメカニスティックプローブを提案する。
各層をトークングラフとして扱い、代数接続(λ_2$)、滑らか性、スペクトルエントロピーを計算する。
12のモデルと10の言語にまたがって、これらの尺度は、標準評価で欠落した不連続を露呈する安定な「スペクトル指紋」をもたらす。
4つの結果が報告される。
1) 特定のカリキュラム移行を行うモデル(例えば、code-to-chat)は、非標準構造上での英語のみの構文トリガー接続障害を示し、Δλ_2 \approx -0.76$ に達する。
このスカーをtextit{Passive-Triggered Connectivity Collapse} (PTCC)と呼ぶ。
Phi 系統の解析により、PTCC は発達段階にわたって出現して分解し、個々の合成データではなく、脆いカリキュラムシフトを引き起こすことが明らかとなった。
2)PTCCは、形式的柔軟性を犠牲にして形式的ルーティングを強化した特殊化トレードオフを反映している。
(3) 再帰的処理戦略を4つ同定し, 単純な凍結保持規則により系統間における完璧な法医学的識別が可能となる。
(4) 機械的には、PTCCは、統語的ストレスの下で失敗するヘッドのスパースレイヤ2 ``compensatory patch'' にローカライズする。
最後に、支配的なトポロジカルな体制は、言語のアイデンティティよりもトークン化密度を追跡する。
全体として、アテンショングラフスペクトルは、監査とトレーニング・レジーム検証のための実用的なツールである。
関連論文リスト
- Protein Structure Tokenization via Geometric Byte Pair Encoding [36.39587248348813]
原理的タンパク質構造プロテタイザ(PST)であるGeoBPEを紹介する。
GeoBPEは、連続的でノイズの多いマルチスケールのバックボーンコンフォメーションを、大域的な制約を課しながら、幾何学の離散文'に変換する。
圧縮(類似の歪み率で1ビットあたり10倍の圧縮)、データ効率(10倍のトレーニングデータ)、一般化を提供する。
論文 参考訳(メタデータ) (2025-11-13T22:53:29Z) - Training-Free Spectral Fingerprints of Voice Processing in Transformers [0.0]
異なる変換器アーキテクチャが、異なる接続パターンを介して同一の言語計算を実装していることを示す。
注意誘導トークングラフ上でのグラフ信号処理を用いて、20言語と3つのモデルファミリ間の接続性の変化を追跡する。
論文 参考訳(メタデータ) (2025-10-21T23:33:43Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - Graph Alignment via Dual-Pass Spectral Encoding and Latent Space Communication [31.43539830271355]
本稿では,ノードの特異性を同時に強化し,潜在空間間の幾何的整合性を実現する新しいグラフアライメントフレームワークを提案する。
提案手法では,低域通過スペクトルフィルタと高域通過スペクトルフィルタを組み合わせたデュアルパスエンコーダを導入し,構造認識と高判別の両方が可能な埋め込みを生成する。
論文 参考訳(メタデータ) (2025-09-11T16:36:16Z) - Structural Alignment Improves Graph Test-Time Adaptation [17.564393890432193]
グラフテスト時間適応(GTTA)のための新しいアルゴリズムであるテスト時間構造アライメント(TSA)を導入する。
TSAは、ソースデータにアクセスすることなく、推論中にグラフ構造を整列する。
合成および実世界のデータセットの実験は、TSAが非グラフTTA法と最先端GTTAベースラインの両方で一貫した性能を実証している。
論文 参考訳(メタデータ) (2025-02-25T16:26:25Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - Counterfactual Intervention Feature Transfer for Visible-Infrared Person
Re-identification [69.45543438974963]
視覚赤外人物再識別タスク(VI-ReID)におけるグラフベースの手法は,2つの問題により,悪い一般化に悩まされている。
十分に訓練された入力特徴は、グラフトポロジーの学習を弱め、推論過程において十分に一般化されない。
本稿では,これらの問題に対処するためのCIFT法を提案する。
論文 参考訳(メタデータ) (2022-08-01T16:15:31Z) - ExpressivE: A Spatio-Functional Embedding For Knowledge Graph Completion [78.8942067357231]
ExpressivEは、一対の実体を点として埋め込み、仮想三重空間に超平行グラフとして関係を埋め込む。
我々は、ExpressivEが最先端のKGEと競合し、W18RRでさらに優れています。
論文 参考訳(メタデータ) (2022-06-08T23:34:39Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。