論文の概要: Which Sparse Autoencoder Features Are Real? Model-X Knockoffs for False Discovery Rate Control
- arxiv url: http://arxiv.org/abs/2511.11711v1
- Date: Wed, 12 Nov 2025 17:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.082289
- Title: Which Sparse Autoencoder Features Are Real? Model-X Knockoffs for False Discovery Rate Control
- Title(参考訳): どのスパースオートエンコーダ特徴が本物か? 偽発見率制御のためのモデルXノックオフ
- Authors: Tsogt-Ochir Enkhbayar,
- Abstract要約: 我々は, 偽発見率(FDR)を制御するために, knock-off+ を用いて, SAE特徴選択に Model-X ノックオフを導入する。
提案手法は,SAEと多重テスト認識推論を組み合わせることで,信頼性の高い特徴発見を実現するための,再現可能で原則化されたフレームワークを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although sparse autoencoders (SAEs) are crucial for identifying interpretable features in neural networks, it is still challenging to distinguish between real computational patterns and erroneous correlations. We introduce Model-X knockoffs to SAE feature selection, using knock-off+ to control the false discovery rate (FDR) with finite-sample guarantees under the standard Model-X assumptions (in our case, via a Gaussian surrogate for the latent distribution). We select 129 features at a target FDR q=0.1 after analyzing 512 high-activity SAE latents for sentiment classification using Pythia-70M. About 25% of the latents under examination carry task-relevant signal, whereas 75% do not, according to the chosen set, which displays a 5.40x separation in knockoff statistics compared to non-selected features. Our method offers a re-producible and principled framework for reliable feature discovery by combining SAEs with multiple-testing-aware inference, advancing the foundations of mechanistic interpretability.
- Abstract(参考訳): ニューラルネットワークの解釈可能な特徴を特定するには,スパースオートエンコーダ(SAE)が不可欠だが,実際の計算パターンと誤相関を区別することは依然として困難である。
モデルXのノックオフをSAEの特徴選択に導入し、ノックオフ+を用いて標準モデルXの仮定に基づいて有限サンプル保証による偽発見率(FDR)を制御する(この場合、潜時分布のガウス代役を通して)。
Pythia-70Mを用いた感情分類のための512個の高活性SAE潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時潜時視時潜時潜時潜時潜時潜時視 , Pythia-70M
調査対象の潜伏者の約25%はタスク関連信号を持っているが、選択されたセットによると75%は、選択されていない特徴と比較して、ノックオフ統計の5.40倍の分離を示す。
本手法は,SAEと多重テスト認識推論を組み合わせ,機械的解釈可能性の基礎を推し進めることにより,信頼性の高い特徴発見のための再現可能で原則化されたフレームワークを提供する。
関連論文リスト
- COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Human-in-the-Loop Feature Selection Using Interpretable Kolmogorov-Arnold Network-based Double Deep Q-Network [2.259291861960906]
本研究では,Double Deep Q-Network (DDQN)に統合されたHuman-in-the-loop (HITL)機能選択フレームワークを提案する。
我々の新しいアプローチは、シミュレーションされた人間のフィードバックと分布に基づくサンプリング、特にベータを利用して、データインスタンスごとの機能サブセットを反復的に洗練する。
Kan-DDQNは、MNISTが93%、FashionMNISTが83%で、従来のDDQNモデルよりも9%向上した。
論文 参考訳(メタデータ) (2024-11-06T08:13:09Z) - FDINet: Protecting against DNN Model Extraction via Feature Distortion Index [25.69643512837956]
FDINETは、ディープニューラルネットワーク(DNN)モデルの特徴分布を活用する新しい防御メカニズムである。
FDI類似性を利用して、分散抽出攻撃から衝突する敵を識別する。
FDINETは、91%を超える精度で衝突する敵を識別する能力を示している。
論文 参考訳(メタデータ) (2023-06-20T07:14:37Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。
本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文 参考訳(メタデータ) (2020-04-05T04:06:50Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。