論文の概要: Unlocking the Black Box of Latent Reasoning: An Interpretability-Guided Approach to Intervention
- arxiv url: http://arxiv.org/abs/2606.01243v1
- Date: Sun, 31 May 2026 13:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.468318
- Title: Unlocking the Black Box of Latent Reasoning: An Interpretability-Guided Approach to Intervention
- Title(参考訳): 潜在推論のブラックボックスをアンロックする:インターベンションへの解釈可能性誘導的アプローチ
- Authors: Shuochen Chang, Tong Bai, Xiaofeng Zhang, Qianli Ma, Qingyang Liu, Zhaohe Liao, Yibo Miao, Li Niu,
- Abstract要約: 本稿では,機械的解釈可能性と動作可能な制御のギャップを埋める。
まず,構造的,因果的,幾何学的プローブを用いた系統解析を行った。
次に、これらの解釈可能性に関する洞察を、トレーニングなしのデコードタイムの介入スイートに運用します。
- 参考スコア(独自算出の注目度): 33.40772052822545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent reasoning enables Large Language Models (LLMs) to perform multi-step inference within continuous hidden states, offering efficiency gains over explicit Chain-of-Thought (CoT). However, the opacity of these continuous thought vectors hinders their reliability and controllability. This paper bridges the gap between mechanistic interpretability and actionable control. We first present a systematic analysis using structural, causal, and geometric probes, revealing that latent vectors encode compressed, faithful representations of reasoning steps, with early vectors acting as critical causal hubs. Building on this, we operationalize these interpretability insights into a suite of training-free, decode-time interventions that refine the latent reasoning process by imposing the identified geometric and semantic priors. Extensive experiments across multiple model scales and diverse task domains demonstrate that our approaches consistently improve reasoning accuracy. Our interpretability-guided interventions consistently unlock latent capabilities and improve reasoning accuracy without any parameter updates.
- Abstract(参考訳): 潜時推論により、Large Language Models (LLM) は連続した隠蔽状態内でマルチステップ推論を実行でき、明示的なChain-of-Thought (CoT) よりも効率が向上する。
しかし、これらの連続的思考ベクトルの不透明さは、その信頼性と制御性を妨げている。
本稿では,機械的解釈可能性と動作可能な制御のギャップを埋める。
まず、構造的、因果的、幾何学的プローブを用いて体系的な解析を行い、潜在ベクトルが論理的ステップの圧縮された忠実な表現を符号化し、初期ベクトルが重要な因果ハブとして機能することを明らかにする。
これに基づいて、これらの解釈可能性の洞察をトレーニング不要でデコード時間の介入のスイートに運用し、識別された幾何学的および意味論的優先順位を付与することで、潜在推論プロセスを洗練します。
複数のモデルスケールと多様なタスクドメインにわたる大規模な実験は、我々のアプローチが推論精度を一貫して改善していることを示します。
我々の解釈可能性誘導による介入は、パラメータを更新することなく、確実に潜在能力を解き放ち、推論精度を向上させる。
関連論文リスト
- Compliance versus Sensibility: On the Reasoning Controllability in Large Language Models [46.26628756478016]
大規模言語モデル(LLM)は、事前学習データにおける共用推論パターンを通じて推論能力を取得することが知られている。
コンフリクト中に信頼性スコアが著しく低下するため、推論競合は内部で検出可能であることを示す。
その結果, LLM推論は具体例に固定されているものの, アクティブな機械的介入は論理的スキーマをデータから効果的に切り離すことができることがわかった。
論文 参考訳(メタデータ) (2026-04-29T22:55:40Z) - How Do Latent Reasoning Methods Perform Under Weak and Strong Supervision? [45.11635323173876]
我々は、プロセスにおける潜伏表現の役割と振舞いをよりよく理解するために、潜伏推論手法の包括的な分析を行う。
潜在表現は複数の可能性をエンコードできるが、推論プロセスは構造化検索を忠実に実装していない。
より強い監督はショートカット行動を緩和するが、多種多様な仮説を維持するために潜伏表現の能力を制限する。
論文 参考訳(メタデータ) (2026-02-25T22:00:59Z) - Beyond Dense States: Elevating Sparse Transcoders to Active Operators for Latent Reasoning [25.054823575096332]
LSTR(Latent Sparse Transcoder Reasoning)を提案する。
LSTRのコアとなるのは、線形多様体輸送をスパースセマンティック更新から切り離すための残留スキップアーキテクチャを備えた潜在トランジショントランスコーダ(LTT)である。
大規模な実験により,LSTRは推論精度と圧縮効率を保ちながら,解釈性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-02-02T06:08:35Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - SpiralThinker: Latent Reasoning through an Iterative Process with Text-Latent Interleaving [4.732347368043908]
SpiralThinkerは、潜在表現を反復的に更新する統合フレームワークである。
構造化アノテーションと組み合わせたプログレッシブアライメントの目的は、潜在的推論とテキスト推論のコヒーレンスを維持する。
論文 参考訳(メタデータ) (2025-11-12T05:05:42Z) - Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought [64.43689151961054]
有向グラフ到達性問題に対する簡易な2層変圧器のトレーニング力学を理論的に解析する。
分析の結果,連続的思考を用いたトレーニングでは,まずインデックスマッチングロジットが増加し,その後は軽度な仮定の下で拘束されることがわかった。
論文 参考訳(メタデータ) (2025-09-27T15:23:46Z) - Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。
しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。
本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文 参考訳(メタデータ) (2025-07-14T07:41:35Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。