論文の概要: Interpretability-Guided Layer Selection over Subspace Projection: SAEs as Stethoscopes, Not Scalpels, for Raw Task Vector Model Editing
- arxiv url: http://arxiv.org/abs/2605.28649v1
- Date: Wed, 27 May 2026 15:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.191678
- Title: Interpretability-Guided Layer Selection over Subspace Projection: SAEs as Stethoscopes, Not Scalpels, for Raw Task Vector Model Editing
- Title(参考訳): 部分空間投影による解釈可能性誘導層選択:SAEs as Stethoscopes, not Scalpels, for Raw Task Vector Model Editing
- Authors: Li Lei, Madalina Ciobanu, Qingqing Mao, Ritankar Das,
- Abstract要約: Gemma-3-4B-IT上での数学的推論のためのSAE誘導編集パイプラインの評価を行った。
この故障は,活性化空間のSAE方向と重み空間のタスクベクトルとの幾何学的不整合に起因することを示す。
SAEは、介入レベルのフィルタリングではなく、層レベルの診断に使用される。
- 参考スコア(独自算出の注目度): 0.44831673135059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs increasingly require surgical model editing to enhance domain-specific capabilities without incurring the computational cost or catastrophic forgetting associated with full fine-tuning. Sparse Autoencoders (SAEs) have emerged as a promising tool in this setting, in principle allowing for feature-level identification of where to intervene. In this work, we rigorously evaluate an SAE-guided editing pipeline for mathematical reasoning on Gemma-3-4B-IT and uncover a fundamental failure mode: the intuitively appealing approach of projecting task vectors onto SAE feature subspaces acts as an information bottleneck that discards approximately 97% of the modification energy, yielding no statistically significant improvements across seven math subjects. We show that this failure stems from a geometric misalignment between activation-space SAE directions and weight-space task vectors. We then propose a shift in perspective: SAE as a Stethoscope, Not a Scalpel, where SAEs are used for layer-level diagnosis rather than intervention-level filtering. By injecting unfiltered raw task vectors only into layers identified by an SAE-derived specificity score, we improve Number Theory accuracy from 29.6% to 39.4% (z=+3.41, p=0.0007) on the Minerva Math benchmark; 5 of 7 math subjects significantly improved and none significantly degraded. Our method is fully deterministic, requires no additional inference cost, and provides a principled framework for interpretability-guided model editing.
- Abstract(参考訳): LLMは、完全な微調整に伴う計算コストや破滅的な忘れを発生させることなく、ドメイン特化能力を高めるために、外科的モデル編集をますます必要とします。
スパースオートエンコーダ(SAE)はこの設定において有望なツールとして登場しており、原則として、どこに介入すべきかを特徴レベルに識別することができる。
本研究では, Gemma-3-4B-IT上での数学的推論のためのSAE誘導編集パイプラインを厳格に評価し, 基本故障モードを明らかにする: SAE特徴空間にタスクベクトルを投影する直感的に魅力的なアプローチは, 修正エネルギーの約97%を廃棄する情報ボトルネックとして機能し, 統計的に有意な改善は得られない。
この故障は,活性化空間のSAE方向と重み空間のタスクベクトルとの幾何学的不整合に起因することを示す。
ステススコープとしてのSAEはScalpelではなくSAEであり、SAEは介入レベルのフィルタリングよりも層レベルの診断に使用される。
SAE由来の特異性スコアによって同定された層に、未フィルタリングの生タスクベクトルを注入することにより、ミネルバのベンチマークで数値理論の精度を29.6%から39.4%(z=+3.41, p=0.0007)に改善する。
提案手法は完全に決定論的であり,追加の推論コストを必要としない。
関連論文リスト
- Distributional Alignment as a Criterion for Designing Task Vectors in In-Context Learning [6.840854574584369]
本稿では,タスクベクトルを用いた推論は,その予測分布とICLの予測分布を一致させるべきであると論じる。
本稿では,タスクベクトルベースとICLベースの推論の次点確率の差を測定する指標である$d_textNTP$を紹介する。
閉形式線形写像により$d_textNTP$を最小化するLTV(Linear Task Vector)を開発した。
論文 参考訳(メタデータ) (2026-05-20T05:26:38Z) - Compiling Deterministic Structure into SLM Harnesses [0.6117371161379209]
小型言語モデル(SLM)は高価であり、大量使用にはデータ主権が制限される。
本稿では,エージェント改善を個別実行計画にコンパイルするSGDe(Semantic Gradient Descent)を提案する。
論文 参考訳(メタデータ) (2026-04-19T14:04:29Z) - Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance [92.72779885657373]
本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。
提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。
そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
論文 参考訳(メタデータ) (2026-02-01T17:29:43Z) - Interpretable Safety Alignment via SAE-Constructed Low-Rank Subspace Adaptation [13.509767769174422]
大規模な言語モデルをトレーニングし、有害な要求を拒否するためには、安全性の調整が不可欠である。
Low-Rank Adaptation (LoRA) は、安全ベンチマークにおける完全な微調整と強化学習を一貫して過小評価している。
このギャップに対処するため、SAILS (Safety Alignment via Interpretable Low-rank Subspace)を提案する。
論文 参考訳(メタデータ) (2025-12-29T07:39:49Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Exploring Structural Degradation in Dense Representations for Self-supervised Learning [84.52554180480037]
自己教師付き学習(SSL)における直感的な現象を観察する。
我々は、この現象を自己教師付きDense Degradation(SDD)と呼び、16の最先端SSLメソッドに一貫した存在を示す。
本稿では,クラス関連尺度と有効次元尺度からなるDense Expression Structure Estimator (DSE)を紹介する。
論文 参考訳(メタデータ) (2025-10-20T08:40:16Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Evaluating Sparse Autoencoders on Targeted Concept Erasure Tasks [1.4565166775409717]
スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションを解釈可能な単位に分解することを目的とした解釈可能性技術である。
我々は,マークスらによる下流作業である ShiFT に基づく評価のファミリを紹介する。
我々は ShiFT をSAE 品質の自動測定基準に適合させ,人間のアノテーションを LLM に置き換える。
また、SAEが同様の概念を解き放つ能力を定量化するTPP(Targeted Probe Perturbation)指標も導入する。
論文 参考訳(メタデータ) (2024-11-28T03:58:48Z) - SAGE: Scalable Ground Truth Evaluations for Large Sparse Autoencoders [7.065809768803578]
SAGE: Scalable Autoencoder Ground-Truth Evaluationは,SAEの真理評価フレームワークである。
提案手法は,タスク固有のアクティベーションを自動的に識別し,これらの点における基底的真理特徴を計算できることを実証する。
我々の枠組みは、解釈可能性研究におけるSAEの一般化可能な大規模評価の道を開くものである。
論文 参考訳(メタデータ) (2024-10-09T21:42:39Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。