論文の概要: Pairwise matrices for sparse autoencoders: single-feature inspection mislabels causal axes
- arxiv url: http://arxiv.org/abs/2605.03160v1
- Date: Mon, 04 May 2026 21:11:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.653389
- Title: Pairwise matrices for sparse autoencoders: single-feature inspection mislabels causal axes
- Title(参考訳): スパースオートエンコーダのペアワイズ行列:単機能検査ミスラベル因果軸
- Authors: Michael A. Riegler, Birk Sebastian Frostelid Torpmann-Hagen,
- Abstract要約: 標準スパースオートエンコーダプロトコルは、各機能をトップアクティベーションコンテキストからラベル付けし、単一機能ステアリングによって検証する。
本稿では,Qwen3-1.7B-Instruct上での標準ワンコーナプロトコルミスをGemma-2-2B-itで再現した,ペアワイズ行列プロトコルと共変ステアリング係数を提案する。
これら3つの所見はGemmaでモデル特異的な損傷シグネチャを再現し,一致した形状制御はCIを10倍に分離する。
- 参考スコア(独自算出の注目度): 2.741152471987327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The standard sparse-autoencoder (SAE) interpretability protocol labels each feature from its top-activating contexts and validates by single-feature steering. We propose the pairwise matrix protocol, co-varying steering coefficient with joint condition, and report three findings the standard one-corner protocol misses on Qwen3-1.7B-Instruct, replicated on Gemma-2-2B-it. First, a feature labelled "AI self-disclaimer" from its top contexts produces an inverted U-shape under a coefficient sweep: at c=+500 the model substitutes a fluent contemplative-philosopher voice for the disclaimer. Two further features anchor the criterion (one monotonic, one pure breakdown). Second, three near-orthogonal cluster-specific features that individually steer a philosophy-of-mind register, jointly suppressed at c=-500, damage grounded composition on recipes and engine explanations as well as introspective prompts; single-feature suppression at the same magnitude leaves controls intact. Third, a matched-geometry comparison of single-feature, joint, and random-direction perturbations (norm ~1.55, cosine ~0.64) yields three distinct output regimes: single-feature substitutes strategy filler, random direction substitutes diverse content, joint suppression alone produces placeholder text. Coherence loss is direction-pattern-dependent, not magnitude-dependent. All three findings reproduce on Gemma with model-specific damage signatures; the matched-geometry control is CI-separated by ~10x. The pipeline also locates a top causally responsible feature in Llama-3.1-8B-Instruct.
- Abstract(参考訳): 標準的なスパースオートエンコーダ(SAE)の解釈可能性プロトコルは、各機能をトップアクティベーションコンテキストからラベル付けし、単一機能ステアリングによって検証する。
本稿では,Qwen3-1.7B-Instruct上での標準ワンコーナプロトコルミスをGemma-2-2B-itで再現した,ペアワイズ行列プロトコルと共変ステアリング係数を提案する。
第一に、「AI self-disclaimer」とラベル付けされた特徴は、係数スイープの下で逆U字を生成し、c=+500のモデルでは、このモデルが表現者に対して流線型の導出的哲学的音声を代用する。
さらに2つの特徴は、基準(モノトニック1つ、純破壊1つ)をアンカーする。
第2に,c=-500で個別に操り,c=-500で抑制し,レシピやエンジンの説明やイントロスペクティブ・プロンプトの損傷を除去し,同じ大きさの葉の単一機能抑制を無傷で制御する,ほぼ直交のクラスター特異的な3つの特徴について検討した。
第3に、単機能、関節、ランダム方向の摂動(ノルム~1.55、コサイン~0.64)の一致した幾何学的比較(英語版)により、3つの異なる出力規則が得られる。
コヒーレンス損失は方向パターン依存であり、大きさ依存ではない。
これら3つの結果はGemmaでモデル特異的な損傷シグネチャを再現し,一致した形状制御はCIを約10倍分離する。
パイプラインはまた、Llama-3.1-8B-Instructで最も因果的に責任を負う特徴である。
関連論文リスト
- Collapse-Free Prototype Readout Layer for Transformer Encoders [0.0]
DDCL-Attentionは、トランスフォーマーエンコーダ用のプロトタイプベースの読み出し層である。
列長の線形複雑度でコンパクトなトークン要約を生成する。
最終読み出し層、VQ-VAEの拡張可能なコードブック、階層型ドキュメント圧縮器である。
論文 参考訳(メタデータ) (2026-04-04T20:23:21Z) - Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval [0.0]
法律チームはますます、大量の契約上の証拠をトリアージするために機械学習を使用している。
多くのモデルは不透明で非決定論的であり、HIPAAやNERC-CIPのようなフレームワークと整合するのは難しい。
決定論的双対エンコーダと透明なファジィトリアージバンドに基づく簡単な再現可能な代替法について検討する。
論文 参考訳(メタデータ) (2026-03-08T00:31:34Z) - From Feature Interaction to Feature Generation: A Generative Paradigm of CTR Prediction Models [81.43473418572567]
CTR(Click-Through Rate)予測は、レコメンデーションシステムにおける中核的なタスクである。
本稿では,埋め込み次元の崩壊と情報冗長性に対処する新しい生成フレームワークを提案する。
SFGは埋没崩壊を緩和し,情報冗長性を低減し,性能向上を図っている。
論文 参考訳(メタデータ) (2025-12-16T03:17:18Z) - Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Label Distributionally Robust Losses for Multi-class Classification:
Consistency, Robustness and Adaptivity [55.29408396918968]
多クラス分類のためのラベル分布ロバスト(LDR)損失という損失関数群について検討した。
我々の貢献は、多クラス分類のためのLDR損失のトップ$kの一貫性を確立することによって、一貫性と堅牢性の両方を含んでいる。
本稿では,各インスタンスのクラスラベルの雑音度に個別化温度パラメータを自動的に適応させる適応型LDR損失を提案する。
論文 参考訳(メタデータ) (2021-12-30T00:27:30Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - A Quadruplet Loss for Enforcing Semantically Coherent Embeddings in
Multi-output Classification Problems [5.972927416266617]
本稿では,多出力分類問題における意味的コヒーレントな特徴埋め込みを学習するための1つの目的関数について述べる。
視覚的監視環境における識別検索と生体認証の問題点を考察する。
論文 参考訳(メタデータ) (2020-02-26T17:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。