論文の概要: Controllable LLM Reasoning via Sparse Autoencoder-Based Steering
- arxiv url: http://arxiv.org/abs/2601.03595v1
- Date: Wed, 07 Jan 2026 05:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.13182
- Title: Controllable LLM Reasoning via Sparse Autoencoder-Based Steering
- Title(参考訳): スパースオートエンコーダに基づくステアリングによる制御可能なLCM推論
- Authors: Yi Fang, Wenjie Wang, Mingfeng Xue, Boyi Deng, Fengli Xu, Dayiheng Liu, Fuli Feng,
- Abstract要約: 大規模推論モデル(LRM)は、人間のような認知的推論戦略を示す。
現在、推論戦略はLEM自身によって自律的に選択されている。
既存の手法は、LRMの隠蔽状態における概念的絡み合いによって、きめ細かい推論戦略を制御するのに苦労している。
- 参考スコア(独自算出の注目度): 66.36947132041657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) exhibit human-like cognitive reasoning strategies (e.g. backtracking, cross-verification) during reasoning process, which improves their performance on complex tasks. Currently, reasoning strategies are autonomously selected by LRMs themselves. However, such autonomous selection often produces inefficient or even erroneous reasoning paths. To make reasoning more reliable and flexible, it is important to develop methods for controlling reasoning strategies. Existing methods struggle to control fine-grained reasoning strategies due to conceptual entanglement in LRMs' hidden states. To address this, we leverage Sparse Autoencoders (SAEs) to decompose strategy-entangled hidden states into a disentangled feature space. To identify the few strategy-specific features from the vast pool of SAE features, we propose SAE-Steering, an efficient two-stage feature identification pipeline. SAE-Steering first recalls features that amplify the logits of strategy-specific keywords, filtering out over 99\% of features, and then ranks the remaining features by their control effectiveness. Using the identified strategy-specific features as control vectors, SAE-Steering outperforms existing methods by over 15\% in control effectiveness. Furthermore, controlling reasoning strategies can redirect LRMs from erroneous paths to correct ones, achieving a 7\% absolute accuracy improvement.
- Abstract(参考訳): 大規模推論モデル(LRM)は、推論プロセス中に人間のような認知的推論戦略(例えば、バックトラック、相互検証)を示し、複雑なタスクにおけるパフォーマンスを向上させる。
現在、推論戦略はLEM自身によって自律的に選択されている。
しかし、このような自律的な選択は、しばしば非効率または誤った推論経路を生じる。
推論をより信頼性と柔軟にするためには、推論戦略を制御する方法を開発することが重要である。
既存の手法は、LRMの隠蔽状態における概念的絡み合いによって、きめ細かい推論戦略を制御するのに苦労している。
これを解決するために、スパースオートエンコーダ(SAE)を利用して、戦略に絡み合った隠された状態を非絡み合う特徴空間に分解する。
多数のSAE機能から戦略固有の数少ない特徴を特定するために,効率的な2段階特徴識別パイプラインであるSAE-Steeringを提案する。
SAE-Steeringはまず、戦略固有のキーワードのロジットを増幅する機能をリコールし、99\%以上の機能をフィルタリングし、残りの機能をコントロールの有効性でランク付けする。
SAE-Steeringは、特定戦略固有の特徴を制御ベクトルとして使用することにより、既存の手法を15倍以上の制御効率で性能を向上する。
さらに、誤った経路から正しい経路へLSMをリダイレクトし、絶対精度を 7 % 向上させることができる。
関連論文リスト
- Beyond Fast and Slow: Cognitive-Inspired Elastic Reasoning for Large Language Models [39.03483371038282]
CogERは、人間の階層的推論にインスパイアされたフレームワークである。
外部ツールを必要とするクエリに対して、Cognitive Tool-Assisted Reasoningを導入する。
CogERは最先端のTest-Timeスケーリングメソッドより優れています。
論文 参考訳(メタデータ) (2025-12-17T05:11:58Z) - ThinkPilot: Steering Reasoning Models via Automated Think-prefixes Optimization [8.765548346606218]
大型共振モデル(LRM)は強力だが、それでも非効率性や標的外推論に悩まされている。
本稿では,LRM推論を自動的に最適化するトレーニングフリーフレームワークであるThinkPilotを紹介する。
それは進化過程を使って思考を生成するが、それは推論行動の分類によって進化する指示である。
論文 参考訳(メタデータ) (2025-10-14T02:02:19Z) - One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - Plan before Solving: Problem-Aware Strategy Routing for Mathematical Reasoning with LLMs [49.995906301946]
既存の手法は通常、数学的推論を行うためにLLM(Large Language Models)をガイドするための固定戦略を利用する。
分析の結果,単一戦略は問題固有の要件に適応できず,有効性と効率性のトレードオフを見落としていることが明らかとなった。
本稿では,PRISM(Planning and Routing through Instance-Specific Modeling)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:22:41Z) - Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection [7.045509749924679]
Route-To-Reason(RTR)は、予算制約下でのタスク難易度に応じて、LMと推論戦略の両方を動的に割り当てる新しい統一ルーティングフレームワークである。
RTRは、専門家モデルと推論戦略の両方の圧縮された表現を学び、推論時に共同で適応的な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T02:53:17Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Zero-Shot Strategies for Length-Controllable Summarization [56.15356055672189]
大規模言語モデル(LLM)は、特にゼロショット設定において、正確な長さ制御に苦しむ。
本研究では, LLMの長さ制御能力を複数の尺度で評価し, 制御性向上のための実用的手法を提案する。
LLaMA 3 を用いて行った実験では,測定値間の長さの密着性の違いが明らかになり,モデル固有のバイアスが強調された。
論文 参考訳(メタデータ) (2024-12-31T02:53:27Z) - SMART: Self-learning Meta-strategy Agent for Reasoning Tasks [44.45037694899524]
SMART(Self-learning Meta-Strategy Agent for Reasoning Tasks)は、LMが様々な推論タスクの最も効果的な戦略を学習し、選択できる新しいフレームワークである。
我々は、戦略選択プロセスをマルコフ決定プロセスとしてモデル化し、強化学習による継続的自己改善を活用する。
実験の結果,SMARTは外部ガイダンスを使わずに最適な戦略を選択する能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-10-21T15:55:04Z) - CtrlA: Adaptive Retrieval-Augmented Generation via Inherent Control [26.21425058462886]
大規模言語モデル(LLM)の幻覚を、検索された外部知識で緩和するための有望な解決策として、検索拡張世代(RAG)が出現している。
本稿では,適応的なRAGを表現的視点から解決し,固有な制御ベースフレームワークであるnameを開発するための最初の試みについて述べる。
実験により、名前は様々なタスクにおいて既存の適応RAG法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-29T03:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。