論文の概要: Exemplar Partitioning for Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2605.14347v2
- Date: Fri, 15 May 2026 22:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.994889
- Title: Exemplar Partitioning for Mechanistic Interpretability
- Title(参考訳): 機械的解釈可能性のための経験的分割
- Authors: Jessica Rumbelow,
- Abstract要約: 大規模言語モデルのアクティベーションから解釈可能な特徴辞書を構築するための教師なし手法を提案する。
EP辞書(EP dictionary)は、リーダークラスタリングされたストリームアクティベーションを距離閾値内で生成した、活性化空間のボロノイ分割である。
例題は学習ではなく観察されるため、同じデータストリームから構築された辞書は、レイヤ、モデル、トレーニングチェックポイント間で直接比較される。
- 参考スコア(独自算出の注目度): 0.02986128861233961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Exemplar Partitioning (EP), an unsupervised method for constructing interpretable feature dictionaries from large language model activations with $\sim 10^3\times$ fewer tokens than comparable sparse autoencoders (SAEs). An EP dictionary is a Voronoi partition of activation space, built by leader-clustering streamed activations within a distance threshold. Each region is anchored by an observed exemplar that serves as both its membership criterion and intervention direction; dictionary size is not prespecified, but determined by the activation geometry at that threshold. Because exemplars are observed rather than learned, dictionaries built from the same data stream are directly comparable across layers, models, and training checkpoints. We characterise EP as an interpretability object via targeted demonstrations of properties newly accessible through this construction, plus one head-to-head benchmark. In Gemma-2-2B, EP dictionary regions are interpretable and support causal interventions: refusal in instruction-tuned Gemma concentrates in a region whose exemplar ablation can collapse held-out refusal. Cross-checkpoint matching between base and instruction-tuned dictionaries separates the directions preserved through finetuning from those introduced by it. EP regions and Gemma Scope SAE features decompose activation space differently but agree on a shared core: $\sim$20% of EP regions match an SAE feature at $F_1 > 0.5$, and EP one-hot probes retain $\sim$97% of raw-activation probe accuracy at $\ell_0 = 1$. Nearest-exemplar distance provides a free out-of-distribution signal at inference. On AxBench latent concept detection at Gemma-2-2B-it L20, EP at $p_1$ reaches mean AUROC 0.881, +0.126 over the canonical GemmaScope SAE leaderboard entry and within 0.030 of SAE-A's 0.911, at $\sim 10^3\times$ less build compute.
- Abstract(参考訳): Inemplar Partitioning (EP) は、大言語モデルのアクティベーションから解釈可能な機能辞書を構築するための教師なしの方法であり、$\sim 10^3\times$ のトークンは、同等のスパースオートエンコーダ(SAE)よりも少ない。
EP辞書(EP dictionary)は、リーダークラスタリングされたストリームアクティベーションを距離閾値内で生成した、活性化空間のボロノイ分割である。
各領域は、そのメンバーシップ基準と介入方向の両方として機能する観察された例によって固定される。辞書のサイズは、事前に特定されていないが、そのしきい値における活性化幾何学によって決定される。
例題は学習ではなく観察されるため、同じデータストリームから構築された辞書は、レイヤ、モデル、トレーニングチェックポイント間で直接比較される。
我々はEPを、この構築を通じて新しくアクセス可能なプロパティのターゲット実証と1つのヘッド・ツー・ヘッドベンチマークによる解釈可能性オブジェクトとして特徴付けている。
Gemma-2Bでは、EP辞書領域は解釈可能であり、因果的介入をサポートする。
ベースと命令で調整された辞書間のクロスチェックポイントマッチングは、微調整によって保存される方向と、それによって導入された方向とを分離する。
EPリージョンとGemma Scope SAEは、異なるアクティベーション空間を分解するが、共有コアで合意する:$\sim$20%のEPリージョンは、SAE機能に$F_1 > 0.5$で一致し、EPワンホットプローブは$\sim$97%の生アクティベーションプローブ精度を$\ell_0 = 1$で保持する。
最近距離は、推論時に自由分布信号を提供する。
AxBench の Gemma-2-2B-it L20 における遅延概念検出では、EP at $p_1$ 平均 AUROC 0.881, +0.126 over the canonical GemmaScope SAE leaderboard entry and within 0.030 at $\sim 10^3\times$ less build compute。
関連論文リスト
- Federated Language Models Under Bandwidth Budgets: Distillation Rates and Conformal Coverage [12.805268849262243]
集中できない帯域制限ノードに散在するデータに基づいて言語モデルを訓練することは、臨床ネットワーク、企業知識基盤、科学コンソーシアムで発生する設定である。
ノード間でデータを分散し続けなければならない状況について検討し、明示的な帯域幅予算の下では、何の統計的保証が得られるのかを問う。
論文 参考訳(メタデータ) (2026-05-11T05:01:43Z) - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs [52.709361620508595]
ListOPDは、パラメータの5分の1で8B-SFTベースラインで、学生をドメイン内に持ち込む。
Amazon Fashionでは、3つの事前登録テスト — 細粒度崖間隔テスト、小さなクリップのクロス予測 — がロックされた予測ウィンドウ内に落下し、グリッド解像度以下のクローズドフォーム予測に一致する小さなクリップ値が設定されている。
論文 参考訳(メタデータ) (2026-05-09T06:48:00Z) - A Closed-Form Persistence-Landmark Pipeline for Certified Point-Cloud and Graph Classification [0.0]
PLACE(Persistence-Landmark Analytic Classification Engine)は、点雲とグラフを分類するためのクローズドフォームパイプラインである。
3つの量的保証 -- マージンベースの過剰リスク率、クローズドフォーム記述子選択ルール、プレディションごとの証明書 -- は、トレーニングラベルのみから導かれる。
論文 参考訳(メタデータ) (2026-05-04T17:15:01Z) - Concepts Whisper While Syntax Shouts: Spectral Anti-Concentration and the Dual Geometry of Transformer Representations [0.0]
5つのアーキテクチャファミリにまたがる残留ストリーム差分ベクトルでは,反集束が観察される。
その結果、コンテクスト化された処理中に意味内容をスペクトル的に静かな領域に回転させることが示唆された。
論文 参考訳(メタデータ) (2026-05-02T21:20:55Z) - Topological Characterization of Churn Flow and Unsupervised Correction to the Wu Flow-Regime Map in Small-Diameter Vertical Pipes [0.0]
特徴曲面(ECS)を用いた最初のトポロジに基づく特徴評価手法を提案する。
この研究はチャーンフローの最初の数学的定義を提供し、教師なしトポロジカル記述子は機械学的なモデルに挑戦し修正できることを示した。
論文 参考訳(メタデータ) (2026-04-07T17:59:15Z) - Tight Convergence Rates for Online Distributed Linear Estimation with Adversarial Measurements [66.94250413799232]
分散パラメータ-サーバ-ワーカー設定における乱数ベクトル$X$の推定について検討する。
主な課題は、敵の計測と非同期である。
その結果, 分散線形推定におけるロバスト性, 識別性, 統計的効率の統一的有限時間評価が得られた。
論文 参考訳(メタデータ) (2026-04-07T11:45:55Z) - Learning Accurate Segmentation Purely from Self-Supervision [87.78965637247107]
Selfmentは完全に自己管理型のフレームワークで、人間のラベルなしでオブジェクトを生画像から直接分割する。
Selfmentは、複数のベンチマークで新しい最先端(SoTA)結果を設定する。
論文 参考訳(メタデータ) (2026-02-27T07:36:32Z) - Natural Language Edge Labelling: Decoupling Intent from Execution in Structured LM Reasoning [0.0]
本稿では,各検索エッジに自由形式の自然言語ディレクティブを付加するラベルラタオーバーレイであるNature Language Edge Labelling (NLEL)を紹介する。
NLEL は CoT/ToT を厳密に一般化し、ラベル付きバンドルの下でのトップ$k$選択の時空単調性を証明し、制御ベクトル歪みによりセレクタ不足を限定する。
論文 参考訳(メタデータ) (2025-10-06T14:00:02Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Differentially Private Exploration in Reinforcement Learning with Linear
Representation [102.17246636801649]
まず,線形混合MDP(Ayob et al., 2020)の設定(モデルベース設定)について検討し,共同・局所微分プライベート(DP)探索を統一的に分析するための枠組みを提供する。
我々はさらに、線形MDP(Jin et al., 2020)におけるプライバシー保護探索(つまりモデルフリー設定)について研究し、$widetildeO(sqrtK/epsilon)$ regret bound for $(epsilon,delta)を提供する。
論文 参考訳(メタデータ) (2021-12-02T19:59:50Z) - Improved Sample Complexity for Incremental Autonomous Exploration in
MDPs [132.88757893161699]
我々は $epsilon$-optimal 目標条件付きポリシーのセットを学び、$ L$ ステップ内で段階的に到達可能なすべての状態を達成します。
DisCoは、コストに敏感な最短経路問題に対して$epsilon/c_min$-optimalポリシーを返すことができる最初のアルゴリズムです。
論文 参考訳(メタデータ) (2020-12-29T14:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。