論文の概要: Do Sparse Autoencoders Identify Reasoning Features in Language Models?
- arxiv url: http://arxiv.org/abs/2601.05679v2
- Date: Wed, 14 Jan 2026 15:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 14:49:41.081996
- Title: Do Sparse Autoencoders Identify Reasoning Features in Language Models?
- Title(参考訳): スパースオートエンコーダは言語モデルにおける推論的特徴を識別するか?
- Authors: George Ma, Zhongyuan Liang, Irene Y. Chen, Somayeh Sojoudi,
- Abstract要約: 大規模言語モデル(LLM)において,スパースオートエンコーダ(SAE)が真の推論特徴を識別するかどうかを検討する。
我々はまず、$ell_$-regularized SAEsが本質的に低次元パターンに偏っているという単純な理論分析を通して示す。
このバイアスに触発され,機能活性化が推論過程を反映しているか,あるいは表層言語的相関を反映しているかを検証するために,ファルシフィケーション指向評価フレームワークを導入する。
- 参考スコア(独自算出の注目度): 12.693974363520423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether sparse autoencoders (SAEs) identify genuine reasoning features in large language models (LLMs). We first show through a simple theoretical analysis that $\ell_1$-regularized SAEs are intrinsically biased toward low-dimensional patterns, providing a mechanistic explanation for why shallow linguistic cues may be preferentially captured over distributed reasoning behaviors. Motivated by this bias, we introduce a falsification-oriented evaluation framework that combines causal token injection and LLM-guided falsification to test whether feature activation reflects reasoning processes or superficial linguistic correlates. Across 20 configurations spanning multiple model families, layers, and reasoning datasets, we find that features identified by contrastive methods are highly sensitive to token-level interventions, with 45% to 90% activating when a small number of associated tokens are injected into non-reasoning text. For the remaining features, LLM-guided falsification consistently produces non-reasoning inputs that activate the feature and reasoning inputs that do not, with no analyzed feature satisfying our criteria for genuine reasoning behavior. Steering these features yields no improvements in benchmark performance. Overall, our results suggest that SAE features identified by current contrastive approaches primarily capture linguistic correlates of reasoning rather than the underlying reasoning computations themselves. Code is available at https://github.com/GeorgeMLP/reasoning-probing.
- Abstract(参考訳): 本研究では,大言語モデル(LLM)において,スパースオートエンコーダ(SAE)が真の推論特徴を識別するかどうかを検討する。
我々はまず、$\ell_1$-regularized SAEsが本質的に低次元パターンに偏っているという単純な理論分析を通して、なぜ浅い言語的手がかりが分散推論よりも優先的に捕捉されるのかを機械論的に説明する。
本稿では, 因果トークン注入とLCM誘導のファルシフィケーションを組み合わせたファルシフィケーション指向評価フレームワークを導入し, 特徴の活性化が推論過程を反映しているか, あるいは表面言語的相関を反映しているかを検証する。
複数のモデルファミリ、レイヤ、推論データセットにまたがる20の構成において、コントラッシブメソッドによって識別される機能はトークンレベルの介入に非常に敏感であり、少数の関連するトークンが非推論テキストに注入されると45%から90%が活性化することがわかった。
残りの特徴について、LLM誘導のファルシフィケーションは、その特徴を活性化する非推論入力と、そうでない推論入力を一貫して生成するが、真の推論動作の基準を満たす分析的特徴は存在しない。
これらの機能をステアリングすると、ベンチマークのパフォーマンスは改善されない。
以上の結果から,現在のコントラスト的アプローチによって同定されるSAEの特徴は,基礎となる推論計算自体よりも,主に推論の言語的相関を捉えていることが示唆された。
コードはhttps://github.com/GeorgeMLP/reasoning-probing.comで入手できる。
関連論文リスト
- Are Language Models Efficient Reasoners? A Perspective from Logic Programming [109.47572890883248]
現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。
本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:30:31Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。
ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文 参考訳(メタデータ) (2025-06-12T17:33:29Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders [8.1201445044499]
LLMの推論の背後にある内部メカニズムは未解明のままである。
仮説をテストするためにスパースオートエンコーダを使用します。
私たちの研究は、LLMにおける推論の機械的理解に向けた第一歩を提供します。
論文 参考訳(メタデータ) (2025-03-24T16:54:26Z) - Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる
我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。
デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文 参考訳(メタデータ) (2025-03-14T07:46:33Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。