論文の概要: Step-Level Sparse Autoencoder for Reasoning Process Interpretation
- arxiv url: http://arxiv.org/abs/2603.03031v1
- Date: Tue, 03 Mar 2026 14:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.83573
- Title: Step-Level Sparse Autoencoder for Reasoning Process Interpretation
- Title(参考訳): 推論プロセス解釈のためのステップレベルスパースオートエンコーダ
- Authors: Xuan Yang, Jiayu Liu, Yuhang Lai, Hao Xu, Zhenya Huang, Ning Miao,
- Abstract要約: 大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて、強力な複雑な推論機能を実現している。
本稿では,ステップレベルスパースオートエンコーダ (SSAE) を提案する。
複数の基本モデルと推論タスクの実験により,抽出した特徴の有効性が示された。
- 参考スコア(独自算出の注目度): 48.99201531966593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved strong complex reasoning capabilities through Chain-of-Thought (CoT) reasoning. However, their reasoning patterns remain too complicated to analyze. While Sparse Autoencoders (SAEs) have emerged as a powerful tool for interpretability, existing approaches predominantly operate at the token level, creating a granularity mismatch when capturing more critical step-level information, such as reasoning direction and semantic transitions. In this work, we propose step-level sparse autoencoder (SSAE), which serves as an analytical tool to disentangle different aspects of LLMs' reasoning steps into sparse features. Specifically, by precisely controlling the sparsity of a step feature conditioned on its context, we form an information bottleneck in step reconstruction, which splits incremental information from background information and disentangles it into several sparsely activated dimensions. Experiments on multiple base models and reasoning tasks show the effectiveness of the extracted features. By linear probing, we can easily predict surface-level information, such as generation length and first token distribution, as well as more complicated properties, such as the correctness and logicality of the step. These observations indicate that LLMs should already at least partly know about these properties during generation, which provides the foundation for the self-verification ability of LLMs. The code is available at https://github.com/Miaow-Lab/SSAE
- Abstract(参考訳): 大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて、強力な複雑な推論機能を実現している。
しかし、それらの推論パターンは分析するには複雑すぎる。
Sparse Autoencoders(SAE)は、解釈可能性のための強力なツールとして登場したが、既存のアプローチは主にトークンレベルで動作し、推論方向やセマンティックトランジションといったより重要なステップレベルの情報をキャプチャする際の粒度ミスマッチを生成する。
本研究では,ステップレベルのスパースオートエンコーダ (SSAE) を提案する。
具体的には、ステップの特徴の空間を正確に制御することにより、ステップ再構成において情報ボトルネックを形成し、背景情報からインクリメンタル情報を分割し、わずかに活性化された複数の次元に分解する。
複数の基本モデルと推論タスクの実験により,抽出した特徴の有効性が示された。
線形探索により、生成長や第1トークン分布などの表面レベルの情報や、ステップの正確性や論理性といったより複雑な特性を容易に予測できる。
これらの観察結果から, LLMの自己検証能力の基盤となる世代間において, LLMはこれらの特性について少なくとも部分的には知る必要があることが示唆された。
コードはhttps://github.com/Miaow-Lab/SSAEで公開されている。
関連論文リスト
- Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - Control Reinforcement Learning: Interpretable Token-Level Steering of LLMs via Sparse Autoencoder Features [1.5874067490843806]
Control Reinforcement Learningは、各トークンでステアリングするためのSAE機能を選択するポリシーをトレーニングし、解釈可能な介入ログを生成する。
Adaptive Feature Maskingは、単一機能解釈性を維持しながら、多様な機能発見を促進する。
MMLU、BBQ、GSM8K、HarmBench、XSTestにわたるGemma 2Bでは、CRLは、トークン単位の介入ログを提供しながら改善されている。
論文 参考訳(メタデータ) (2026-02-11T02:28:49Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures [12.466522376751811]
超次元プローブは、大規模言語モデルベクトル空間から情報を復号するための新しいパラダイムである。
シンボリック表現とニューラルプローブのアイデアを組み合わせて、モデルの残留ストリームを解釈可能な概念に投影する。
我々の研究は、LLMベクトル空間における情報復号化を進め、神経表現からより情報的、解釈可能、構造化された特徴を抽出することを可能にする。
論文 参考訳(メタデータ) (2025-09-29T16:59:07Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Feature Engineering for Agents: An Adaptive Cognitive Architecture for Interpretable ML Monitoring [2.1205272468688574]
大規模言語モデルに基づくエージェントに特徴工学の原則を適用したMLモニタリングのための認知アーキテクチャを提案する。
決定手順モジュールは、リファクタリング、ブレークダウン、コンパイルという3つの重要なステップを通じて、機能エンジニアリングをシミュレートする。
複数のLCMを用いた実験により, 各種ベースラインと比較して精度が有意に向上し, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-06-11T13:48:25Z) - FOL-Pretrain: A complexity annotated corpus of first-order logic [16.061040115094592]
トランスフォーマーベースの大規模言語モデル(LLM)は、顕著な推論能力を示している。
LLMの振る舞いをリバースエンジニアリングしようとする最近の試みにもかかわらず、これらのモデルがどのように複雑なアルゴリズムの内部化と実行を行うかについての理解は依然として限られている。
本稿では,大規模かつ完全にオープンな,一階述語論理推論トレースの複雑性アノテーション付きデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-20T21:38:28Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。
彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。
本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (2025-02-12T07:37:39Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。