論文の概要: Feature Rivalry in Sparse Autoencoder Representations: A Mechanistic Study of Uncertainty-Driven Feature Competition in LLMs
- arxiv url: http://arxiv.org/abs/2605.08149v1
- Date: Sun, 03 May 2026 18:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.398103
- Title: Feature Rivalry in Sparse Autoencoder Representations: A Mechanistic Study of Uncertainty-Driven Feature Competition in LLMs
- Title(参考訳): スパースオートエンコーダ表現における特徴量:LLMにおける不確実性駆動的特徴競合の力学的検討
- Authors: Harshavardhan,
- Abstract要約: 負相関のSAE特徴ペアであるFeature Rivalryを導入し、競合がモデル不確実性の機械的シグネチャとして機能するかどうかを検討する。
その結果,高エントロピー質問は低エントロピー質問と比較して,0層と12層において非常に強い特徴競合をもたらすことがわかった。
次に、競合する軸に沿ってアクティベーションステアリングすることで、モデル出力の因果的に競合が上流にあるかどうかをテストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) decompose large language model representations into interpretable features, but how these features interact under uncertainty remains poorly understood. We introduce Feature Rivalry -- negatively correlated SAE feature pairs -- and study whether rivalry serves as a mechanistic signature of model uncertainty in Gemma-2-2B using Gemma Scope SAEs. Through a controlled within-domain experiment on PopQA split by response entropy, we find that high-entropy questions produce significantly stronger feature rivalry at layers 0 and 12 relative to low-entropy questions (p=5.3x10^-26 and p=5.8x10^-5 respectively), localizing uncertainty to specific processing stages in the residual stream. We then test whether rivalry is causally upstream of model outputs via activation steering along rivalry axes -- finding that steering along the rivalry direction (vec_A - vec_B) causes more output changes than random directions at low steering multipliers across 15 of 20 rival feature pairs. Finally, a per-prompt rivalry score derived from pairwise cosine similarities of active SAE feature decoder vectors predicts answer correctness (AUROC=0.689), approaching but not matching softmax confidence (AUROC=0.808).
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、大きな言語モデル表現を解釈可能な特徴に分解するが、不確実性の下でどのように相互作用するかは理解されていない。
SAE特徴対を負に相関する特徴連関を導入し, Gemma Scope SAEを用いたGemma-2-2Bにおけるモデル不確実性の機械的シグネチャとして競合が有効か検討した。
応答エントロピーによって分割されたPopQAの制御されたドメイン内実験により、高エントロピーの質問は、低エントロピーの質問(p=5.3x10^-26とp=5.8x10^-5)に対して、0と12の層において、非常に強い特徴の競合を生じさせ、残留ストリームの特定の処理段階に局所化することを発見した。
次に、20個の特徴対のうち15個の低ステアリング乗算器において、競合方向(vec_A - vec_B)に沿ったステアリングがランダムな方向よりも多くの出力変化を引き起こすことを発見した。
最後に、アクティブなSAE特徴デコーダベクトルの正解率(AUROC=0.689)のコサイン類似性から導かれるプロンプト毎の競合スコアが、ソフトマックス信頼度(AUROC=0.808)に接近するが、一致しない(AUROC=0.808)。
関連論文リスト
- Activation Differences Reveal Backdoors: A Comparison of SAE Architectures [5.218766876318545]
言語モデルに対するバックドア攻撃は、AIの安全性に重大な脅威をもたらす。
微調整モデルにおけるバックドア関連機能を分離するための2つのスパースオートエンコーダアーキテクチャについて検討する。
Diff-SAEは、バックドアアイソレーションにおいてクロスコーダよりも一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2026-05-08T06:30:26Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - From Global to Granular: Revealing IQA Model Performance via Correlation Surface [83.65597122328133]
我々は, IQA 性能の構造化, きめ細かな解析を行う textbfGranularity-Modulated correlation (GMC) を提案する。
GMCにはtextbfDistribution Regulatorが含まれており、相関関係を規則化し、非均一な品質分布からのバイアスを軽減する。
標準ベンチマークの実験では、GCCはスカラーメトリクスに見えないパフォーマンス特性を示し、IQAモデルを分析、比較、デプロイするためのより情報に富んだ信頼性の高いパラダイムを提供する。
論文 参考訳(メタデータ) (2026-01-29T13:55:26Z) - The Hypocrisy Gap: Quantifying Divergence Between Internal Belief and Chain-of-Thought Explanation via Sparse Autoencoders [0.0]
モデルの内部推論と最終生成との相違を定量化するために、偽犯罪ギャップを導入する。
数学的に、スパース線形プローブによって導出された内的真理信念を、潜在空間における最終的な生成軌跡と比較することにより、モデルが不誠実な振る舞いをする傾向を定量化し、検出する。
論文 参考訳(メタデータ) (2026-01-14T00:40:40Z) - Which Sparse Autoencoder Features Are Real? Model-X Knockoffs for False Discovery Rate Control [0.0]
我々は, 偽発見率(FDR)を制御するために, knock-off+ を用いて, SAE特徴選択に Model-X ノックオフを導入する。
提案手法は,SAEと多重テスト認識推論を組み合わせることで,信頼性の高い特徴発見を実現するための,再現可能で原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-12T17:12:45Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - Birds of a Feather Trust Together: Knowing When to Trust a Classifier
via Adaptive Neighborhood Aggregation [30.34223543030105]
我々は、NeighborAggがアダプティブ近隣アグリゲーションを介して2つの重要な情報を利用する方法を示す。
また, 誤り検出の密接な関連課題へのアプローチを拡張し, 偽陰性境界に対する理論的カバレッジを保証する。
論文 参考訳(メタデータ) (2022-11-29T18:43:15Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。