論文の概要: Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process
- arxiv url: http://arxiv.org/abs/2512.23988v1
- Date: Tue, 30 Dec 2025 05:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.285043
- Title: Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process
- Title(参考訳): 幻想的推論行動と発見の場所:推論過程の教師なし発見
- Authors: Zhenyu Zhang, Shujian Zhang, John Lambert, Wenxuan Zhou, Zhangyang Wang, Mingqing Chen, Andrew Hard, Rajiv Mathews, Lun Wang,
- Abstract要約: 本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。
思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。
本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
- 参考スコア(独自算出の注目度): 66.38541693477181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the growing reasoning capabilities of recent large language models (LLMs), their internal mechanisms during the reasoning process remain underexplored. Prior approaches often rely on human-defined concepts (e.g., overthinking, reflection) at the word level to analyze reasoning in a supervised manner. However, such methods are limited, as it is infeasible to capture the full spectrum of potential reasoning behaviors, many of which are difficult to define in token space. In this work, we propose an unsupervised framework (namely, RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) for discovering reasoning vectors, which we define as directions in the activation space that encode distinct reasoning behaviors. By segmenting chain-of-thought traces into sentence-level 'steps' and training sparse auto-encoders (SAEs) on step-level activations, we uncover disentangled features corresponding to interpretable behaviors such as reflection and backtracking. Visualization and clustering analyses show that these behaviors occupy separable regions in the decoder column space. Moreover, targeted interventions on SAE-derived vectors can controllably amplify or suppress specific reasoning behaviors, altering inference trajectories without retraining. Beyond behavior-specific disentanglement, SAEs capture structural properties such as response length, revealing clusters of long versus short reasoning traces. More interestingly, SAEs enable the discovery of novel behaviors beyond human supervision. We demonstrate the ability to control response confidence by identifying confidence-related vectors in the SAE decoder space. These findings underscore the potential of unsupervised latent discovery for both interpreting and controllably steering reasoning in LLMs.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) の推論能力の増大にもかかわらず、推論過程における内部メカニズムは未解明のままである。
先行的なアプローチは、しばしば人間の定義した概念(例えば、過剰思考、リフレクション)を単語レベルで頼りにし、指示された方法で推論を分析する。
しかし、そのような手法は、潜在的な推論行動の全スペクトルを捉えることは不可能であり、その多くがトークン空間で定義することが難しいため、制限されている。
本研究では,アクティベーション空間におけるアクティベーションの方向として,個別の推論動作を符号化するフレームワーク(RISE: Reasoning behavior Interpretability via Sparse auto-Encoder)を提案する。
文レベルの「ステップ」に連鎖トレースをセグメント化し、ステップレベルのアクティベーションに基づいてスパースオートエンコーダ(SAE)を訓練することにより、リフレクションやバックトラッキングなどの解釈可能な動作に対応する歪んだ特徴を明らかにする。
可視化およびクラスタリング解析により、これらの挙動がデコーダ列空間内の分離可能な領域を占めることが示された。
さらに、SAE由来ベクターに対する標的的介入は、特定の推論動作を制御的に増幅または抑制し、再訓練せずに推論軌跡を変化させる。
行動特異的な絡み合いの他に、SAEは応答長などの構造的特性を捉え、長い推理と短い推理の痕跡のクラスターを明らかにする。
さらに興味深いことに、SAEは人間の監督を超えた新しい行動の発見を可能にしている。
本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
これらの知見は, LLMの解釈と制御的操舵の両面において, 教師なし潜在性発見の可能性を示すものである。
関連論文リスト
- ActivationReasoning: Logical Reasoning in Latent Activation Spaces [43.17973499652433]
大きな言語モデル (LLM) は、流動的なテキストを生成するのに優れているが、内部の推論は不透明で制御が難しいままである。
LLMの潜在空間に明示的な論理的推論を組み込むフレームワークである ActivationReasoning (AR) を導入する。
ARは推論の複雑さで堅牢にスケールし、抽象的でコンテキストに敏感なタスクに一般化し、モデルバックボーン間で転送する。
論文 参考訳(メタデータ) (2025-10-21T00:21:04Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - From "Aha Moments" to Controllable Thinking: Toward Meta-Cognitive Reasoning in Large Reasoning Models via Decoupled Reasoning and Control [11.321315058502215]
大規模推論モデル(LRM)は、ステップバイステップの推論、リフレクション、バックトラッキングなどの認知行動を自発的に示すことで、複雑な推論の潜在能力を示した。
しかし、そのような創発的行動は規制されず、制御されていないままであり、しばしば過度に考え直され、モデルが信頼できる結論に達した後も冗長な推論内容を生成し続ける。
現在のモデルは、いつ継続するか、バックトラックするか、終了するかを決定するために、彼らの推論プロセスを監視し、適応的に管理できない。
我々はメタ認知推論フレームワーク(MERA)を提案する。
論文 参考訳(メタデータ) (2025-08-06T13:59:17Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - On Reasoning Strength Planning in Large Reasoning Models [50.61816666920207]
我々は, LRM が, 世代前においても, アクティベーションにおける推論強度を事前に計画している証拠を見出した。
次に、LEMがモデルのアクティベーションに埋め込まれた方向ベクトルによって、この推論強度を符号化していることを明らかにする。
我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-06-10T02:55:13Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations [2.759846687681801]
大規模言語モデル(LLM)は、タスクの解決に実際に使用している戦略を報告することができるが、その振る舞いを管理する戦略を認識できない場合もある。
これはメタ認知(メタ認知)の程度が限定されていることを示唆している。
我々は,LLMのメタ認知能力の定量化と,その活性化パターンの報告と制御に,文脈内学習を用いた神経科学に着想を得た神経フィードバックパラダイムを導入する。
論文 参考訳(メタデータ) (2025-05-19T22:32:25Z) - Behaviour Discovery and Attribution for Explainable Reinforcement Learning [6.123880364445758]
強化学習(RL)エージェントへの信頼を構築するには、なぜ特定の決定を下すのかを理解する必要がある。
既存の説明可能性の手法は、しばしば単一状態または全軌道に焦点をあてる。
動作発見とセグメンテーションのための完全にオフラインで報酬のないフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T08:06:00Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。