論文の概要: Do Sparse Autoencoders Identify Reasoning Features in Language Models?
- arxiv url: http://arxiv.org/abs/2601.05679v1
- Date: Fri, 09 Jan 2026 09:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.936044
- Title: Do Sparse Autoencoders Identify Reasoning Features in Language Models?
- Title(参考訳): スパースオートエンコーダは言語モデルにおける推論的特徴を識別するか?
- Authors: George Ma, Zhongyuan Liang, Irene Y. Chen, Somayeh Sojoudi,
- Abstract要約: 大規模言語モデル(LLM)において,スパースオートエンコーダ(SAE)が真の推論特徴を識別するかどうかを検討する。
少数の機能関連トークンを非推論テキストに注入すると、59%から94%の機能が強いアクティベーションを引き出すのに十分である。
単純なトークントリガによって説明されない残りの特徴に対して、LCM誘導のファルシフィケーションは、その特徴を活性化する非推論入力と、そうでない推論入力を一貫して生成する。
- 参考スコア(独自算出の注目度): 12.693974363520423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether sparse autoencoders (SAEs) identify genuine reasoning features in large language models (LLMs). Starting from features selected using standard contrastive activation methods, we introduce a falsification-oriented framework that combines causal token injection experiments and LLM-guided falsification to test whether feature activation reflects reasoning processes or superficial linguistic correlates. Across 20 configurations spanning multiple model families, layers, and reasoning datasets, we find that identified reasoning features are highly sensitive to token-level interventions. Injecting a small number of feature-associated tokens into non-reasoning text is sufficient to elicit strong activation for 59% to 94% of features, indicating reliance on lexical artifacts. For the remaining features that are not explained by simple token triggers, LLM-guided falsification consistently produces non-reasoning inputs that activate the feature and reasoning inputs that do not, with no analyzed feature satisfying our criteria for genuine reasoning behavior. Steering these features yields minimal changes or slight degradations in benchmark performance. Together, these results suggest that SAE features identified by contrastive approaches primarily capture linguistic correlates of reasoning rather than the underlying reasoning computations themselves.
- Abstract(参考訳): 本研究では,大言語モデル(LLM)において,スパースオートエンコーダ(SAE)が真の推論特徴を識別するかどうかを検討する。
標準的なコントラストアクティベーション法を用いて選択された特徴から、因果トークン注入実験とLLM誘導ファルシフィケーションを組み合わせたファルシフィケーション指向フレームワークを導入し、特徴アクティベーションが推論過程を反映しているか、あるいは表層言語的相関を反映しているかを検証する。
複数のモデルファミリ、レイヤ、推論データセットにまたがる20のコンフィギュレーションにおいて、識別された推論機能はトークンレベルの介入に非常に敏感であることがわかった。
少数の特徴関連トークンを非推論テキストに注入することは、59%から94%の機能を強く活性化させるのに十分であり、語彙的アーティファクトに依存していることを示している。
単純なトークントリガで説明できない残りの特徴に対して、LCM誘導のファルシフィケーションは、その特徴を活性化する非推論入力と、そうでない推論入力を一貫して生成するが、真の推論動作の基準を満たす分析的特徴は存在しない。
これらの機能をステアリングすると、ベンチマークのパフォーマンスが最小限の変更またはわずかに低下する。
これらの結果から,SAEの特徴は,基本的推論計算自体よりも,主に推論の言語的相関を捉えていることが示唆された。
関連論文リスト
- Are Language Models Efficient Reasoners? A Perspective from Logic Programming [109.47572890883248]
現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。
本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:30:31Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。
ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文 参考訳(メタデータ) (2025-06-12T17:33:29Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders [8.1201445044499]
LLMの推論の背後にある内部メカニズムは未解明のままである。
仮説をテストするためにスパースオートエンコーダを使用します。
私たちの研究は、LLMにおける推論の機械的理解に向けた第一歩を提供します。
論文 参考訳(メタデータ) (2025-03-24T16:54:26Z) - Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる
我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。
デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文 参考訳(メタデータ) (2025-03-14T07:46:33Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。