論文の概要: Geometric Evolution Maps: Extracting Stable Concept Probes from Transformer Residual Streams
- arxiv url: http://arxiv.org/abs/2605.25848v1
- Date: Mon, 25 May 2026 13:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.147304
- Title: Geometric Evolution Maps: Extracting Stable Concept Probes from Transformer Residual Streams
- Title(参考訳): 幾何学的進化地図:変圧器残差ストリームから安定なコンセプトプローブを抽出する
- Authors: James Henry,
- Abstract要約: 391 の概念 x モデル対のアブレーション実験により、GEM 抽出プローブは少なくともピーク層プローブと同程度正確であることが示されている。
方向特異性制御は、アブレーション効果が概念指向性であることを確認する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept probes extracted from transformer residual streams are only as reliable as the layer from which they are extracted. The common practice of probing at a fixed late layer or at the peak of a separation score function ignores a fundamental structural feature: concept representations undergo substantial directional rotation during their assembly phase, and do not settle into a stable direction until a characteristic handoff layer after the primary Concept Allocation Zone (CAZ). We introduce Geometric Evolution Maps (GEMs), which track the full directional trajectory of a concept through residual stream activations, identify the handoff layer where rotation ceases, and extract the settled probe direction from that layer. Across 23 architectures spanning 70M to 14B parameters and 17 concept types, the entry-to-exit cosine similarity within CAZs has a mean of 0.233, showing that probe direction at CAZ entry does not reliably predict probe direction at exit. Ablation experiments across 391 concept x model pairs (23 models x 17 concepts) show that GEM-extracted probes are at least as precise as peak-layer probes in 268/391 trials (68.5%), and strictly outperform in 259/391 (66.2%). The architecture split is pronounced: MHA models favour the handoff in 173/221 trials (78.3%); GQA models favour the handoff in only 56/119 trials (47.1%). Model-level Wilcoxon: W=214, N=23, p=0.010 (one-sided). An adaptive ablation width rule targets the 79/391 near-final-layer cases: it improves probe quality in 60/79 triggered cases (75.9%), mean gain +7.44pp. A direction-specificity control confirms the ablation effect is concept-direction specific: median 377x suppression rate versus random-direction ablation (99.1% of concept directions beat all 10 random seeds). Reference implementation: rosetta_tools v1.3.1 (doi:10.5281/zenodo.20361433).
- Abstract(参考訳): 変圧器残流から抽出した概念プローブは,抽出した層と同じくらい信頼性が高い。
固定遅延層や分離スコア関数のピークでの探索の一般的な実践は、基本的な構造的特徴を無視している: 概念表現は、組み立てフェーズの間、実質的な方向の回転をしており、一次概念割り当てゾーン(CAZ)の後の特徴的なハンドオフ層(英語版)まで安定な方向に落ち着かない。
本稿では,Geometric Evolution Maps (GEMs)を導入し,残ストリーム活性化による概念の全方向軌跡の追跡を行い,回転が停止するハンドオフ層を特定し,その層から分解されたプローブ方向を抽出する。
70Mから14Bのパラメータと17のコンセプトタイプにまたがる23のアーキテクチャでは、CAZsの入出力コサイン類似度の平均は0.233であり、CAZの入出力におけるプローブ方向が出口でのプローブ方向を確実に予測できないことを示している。
391 の概念 x モデル対 (23 モデル x 17 の概念) のアブレーション実験では、GEM 抽出プローブは 268/391 の試行で 268/391 倍の精度であり、259/391 (66.2%) では厳密に上回っている。
MHAモデルは173/221トライアル(78.3%)でハンドオフを好むが、GQAモデルは56/119トライアル(47.1%)でハンドオフを好む。
モデルレベルのウィルコクソン: W=214, N=23, p=0.010(片側)。
適応的アブレーション幅規則は、79/391の準最終層のケースをターゲットにしており、60/79の引き起こされたケース(75.9%)ではプローブ品質が向上し、平均ゲイン+7.44ppである。
方向特異性制御は、アブレーション効果が概念指向性特異的であることを確認する: 中央値377倍の抑制率とランダム指向性アブレーション(概念指向の99.1%がランダムシードを全て破る)。
リファレンス実装: rosetta_tools v1.3.1 (doi:10.5281/zenodo.20361433)
関連論文リスト
- Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Entropy Across the Bridge: Conditional-Marginal Discretization for Flow and Schrödinger Samplers [68.9946633641494]
フローマッチングとシュルディンガーブリッジは確率を定義するが、その推論格子は通常一点拡散から受け継がれる。
終端条件付き橋梁形状を境界流の進化から分離し, 橋梁を識別する条件付きエントロピーレートを導出する。
EDM/CIFAR-10では、エントロピックな時間分散は5段階のFID(186.3 pm 4.0対200.5 pm 2.9対cosineの238.0 pm 5.3)が最適である。
論文 参考訳(メタデータ) (2026-05-15T16:11:10Z) - First-Passage Prediction of Grokking Delay: ACalibrated Law under AdamW with Causal Validation [0.0]
閉形式法 T_grok - T_mem = (1 / 2 kappa_LL eta) log(V_mem / V_star) ここで、V_t =theta_t||2 は標準二乗パラメータ、V_star はアーキテクチャ依存しきい値、kappa_LL はクリーンSGD 収縮率 2 eta に対するAdamW 補正を吸収する。
単一ハイパーランゲージセル上でのキャリブレーション(kappa_LL, V_star)は,MAPE 17.7%を41で達成し,26回のホールドアウト動作におけるグルーキング遅延を予測する
論文 参考訳(メタデータ) (2026-05-13T06:33:56Z) - Adaptive Consensus in LLM Ensembles via Sequential Evidence Accumulation: Automatic Budget Identification and Calibrated Commit Signals [0.0]
DASEは、ベンチマークをまたいで一般化するコミット型ルーティングパーティションを生成する。
インジェクション帯域ではなく、適応的な停止が正確さを駆動する。
インジェクションベースの手法は、逆Uの精度-vs-推論軌道を示す。
論文 参考訳(メタデータ) (2026-05-05T19:24:10Z) - When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors [66.18091962164219]
既存のメトリクスは、タスクの成功に必要な義務的な振る舞いと、モデルの自律的な嗜好を反映した命令的でないパターンを区別することができない。
言語アライメントのための textbfResponse Pattern similarity (RPS) と、有向グラフとしてモデル化されたツール使用習慣のための textbfAction Graph similarity (AGS) である。
論文 参考訳(メタデータ) (2026-04-23T03:48:56Z) - Variance Is Not Importance: Structural Analysis of Transformer Compressibility Across Model Scales [0.0]
スペクトル圧縮,ブロックレベル関数置換,回転ベース量子化,アクティベーション幾何,適応早期出口について検討した。
圧縮に関連する5つの構造特性を同定する。
論文 参考訳(メタデータ) (2026-04-22T15:31:46Z) - Exhaustive Circuit Mapping of a Single-Cell Foundation Model Reveals Massive Redundancy, Heavy-Tailed Hub Architecture, and Layer-Dependent Differentiation Control [0.0]
本稿では, サーキットトレース, 高次アブレーション, 因果軌道ステアリングによる限界に対処する3つの実験について述べる。
第一に、第5層における4065個のアクティブオートエンコーダの特徴を徹底的に追跡すると、1393850の下流エッジが得られる。
第2に、8つの三つ子にまたがる3つの冗長性は、冗長性は相互作用順序とともに単調に深まることを示す。
第3に、軌道案内型特徴ステアリングは、層の位置と微分方向との因果関係を確立する。
論文 参考訳(メタデータ) (2026-03-12T13:53:20Z) - Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage [65.51149575007149]
本稿では,Fun-DDPSについて述べる。Fun-DDPSは,関数空間拡散モデルと微分可能なニューラル演算子サロゲートを結合した生成フレームワークである。
Fun-DDPSは、ジョイントステートベースラインで観察される高周波アーティファクトから、物理的に一貫した実現をもたらす。
論文 参考訳(メタデータ) (2026-02-12T18:58:12Z) - Tethered Reasoning: Decoupling Entropy from Hallucination in Quantized LLMs via Manifold Steering [0.0]
量子化言語モデルは基本的なジレンマに直面し、低いサンプリング温度は繰り返しモード崩壊した出力を発生させ、一方高温(T > 2.0)は軌道分岐と意味的不整合を引き起こす。
隠れ状態軌跡を事前に計算した真性多様体にテザリングすることで、幻覚から出力エントロピーを分離するフレームワークであるHELIXを提案する。
論文 参考訳(メタデータ) (2026-02-06T06:24:37Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。