論文の概要: Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics
- arxiv url: http://arxiv.org/abs/2605.18549v1
- Date: Mon, 18 May 2026 15:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.912276
- Title: Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics
- Title(参考訳): 内部モノローグのモニタリング - Probe Trajectories Reveal Reasoning Dynamics
- Authors: Maciej Chrabąszcz, Aleksander Szymczyk, Marcin Sendera, Tomasz Trzciński, Sebastian Cygert,
- Abstract要約: 大規模推論モデル (LRM) は, 思考の連鎖 (CoT) 推論を通じて, 安全監視のための新たな機会を導入する。
本研究では,LRMの隠れ表現について検討し,今後の挙動をプロンプトおよびCoT表現から予測できるかどうかを検証した。
将来のモデル行動は, 単一の静的予測より, 完全な軌道上での検証において, より区別し易いことが判明した。
- 参考スコア(独自算出の注目度): 42.27928681606673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) introduce new opportunities for safety monitoring through their Chain of Thought (CoT) reasoning. However, CoT is not always faithful to the model's final output, undermining its reliability as a monitoring tool. To address this, we investigate the hidden representations of LRMs to determine whether future behavior can be predicted from prompt and CoT representations. By evaluating a probe at each generated token, we construct a probe trajectory, the continuous evolution of a concept's probability across the reasoning process. We find that future model behavior is more distinguishable when examined over the full trajectory than from a single static prediction. To characterize these temporal dynamics, we extract signal-processing features that capture volatility, trend, and steady-state behavior, significantly improving the separation of future model states. We also present two methodological insights. First, template-based training data achieves near-parity with dynamically generated model responses, eliminating the need for a costly initial inference and labeling. Second, the choice of pooling operation is critical: average-pooling and last-token methods collapse to near-random performance, while max-pooling achieves up to 95% AUROC and yields stable probe trajectories. Using four datasets and four reasoning models across the domains of safety and mathematics, we demonstrate that trajectory features encode task-specific dynamics that improve outcome separability. These findings establish probe trajectories as a complementary framework for monitoring LRM behavior. Warning: This article contains potentially harmful content.
- Abstract(参考訳): 大規模推論モデル (LRM) は, 思考の連鎖 (CoT) 推論を通じて, 安全監視のための新たな機会を導入する。
しかし、CoTは必ずしもモデルの最終出力に忠実ではないため、監視ツールとしての信頼性を損なう。
そこで本研究では,LRMの隠れ表現について検討し,今後の挙動をプロンプトおよびCoT表現から予測できるかどうかを検証した。
それぞれのトークンでプローブを評価することにより、推論過程における概念の確率の連続的進化であるプローブ軌道を構築する。
将来のモデル行動は, 単一の静的予測より, 完全な軌道上での検証において, より区別し易いことが判明した。
これらの時間的ダイナミクスを特徴付けるために、変動性、傾向、定常状態の挙動を捉える信号処理特徴を抽出し、将来のモデル状態の分離を大幅に改善する。
また,2つの方法論的知見を提示する。
まず、テンプレートベースのトレーニングデータにより、動的に生成されたモデル応答でほぼ平準性を達成し、コストのかかる初期推論とラベル付けの必要性を排除します。
平均プール法と最終トーケン法がほぼランダムな性能に崩壊する一方、最大プール法は最大95%のAUROCを達成し、安定なプローブ軌道を得る。
安全と数学の領域にまたがる4つのデータセットと4つの推論モデルを用いて、トラジェクトリは、結果分離性を改善するタスク固有のダイナミクスをエンコードすることを示した。
これらの知見は、LRMの挙動を監視するための補完的な枠組みとしてプローブ軌道を確立した。
警告: この記事には潜在的に有害なコンテンツが含まれている。
関連論文リスト
- Is the Future Compatible? Diagnosing Dynamic Consistency in World Action Models [28.165928090888986]
世界行動モデル(WAM)は、将来の観察と行動を予測することにより、想像上のロールアウトを通じて意思決定を可能にする。
動作状態の整合性、予測された動作と誘導された状態遷移の整合性を、WAMの信頼性の欠如の軸として同定する。
テスト時間選択のための価値のないコンセンサス戦略を導入し、予測される未来間での合意によって、候補のロールアウトをランク付けする。
論文 参考訳(メタデータ) (2026-05-08T09:44:43Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。
i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-09T06:26:02Z) - Next Interest Flow: A Generative Pre-training Paradigm for Recommender Systems by Modeling All-domain Movelines [8.895768051554162]
本稿では,eコマースレコメンデータシステムのための新しい生成事前学習パラダイムを提案する。
我々のモデルは,ユーザの将来の意図を表す密度の高いベクトル列であるNext Interest Flowを予測することを学ぶ。
パイプライン全体を実装した統合フレームワークである All-domain Moveline Evolution Network (AMEN) を提示する。
論文 参考訳(メタデータ) (2025-10-13T12:13:17Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Parallel Test-Time Scaling for Latent Reasoning Models [58.428340345068214]
並列テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)の拡張のための重要なアプローチである。
連続ベクトル空間において中間的推論が展開する潜在的推論の最近の進歩は、明示的なチェーン・オブ・サート(Chain-of-Thought)に対するより効率的な代替手段を提供する。
この作業は、上記の問題に対処することで、潜在推論モデルに対する並列TSを可能にする。
論文 参考訳(メタデータ) (2025-10-09T03:33:00Z) - Beyond Patterns: Harnessing Causal Logic for Autonomous Driving Trajectory Prediction [10.21659221112514]
本稿では、因果推論を利用して予測堅牢性、一般化、精度を向上させる新しい軌道予測フレームワークを提案する。
本研究は、軌跡予測の因果推論の可能性を強調し、ロバストな自律運転システムへの道を開くものである。
論文 参考訳(メタデータ) (2025-05-11T05:56:07Z) - FlowDAS: A Stochastic Interpolant-based Framework for Data Assimilation [15.64941169350615]
データ同化(DA)は、PDEが支配するシステムの状態を推定するために、動的モデルと観測を統合する。
FlowDASは、間補体を使用して状態遷移ダイナミクスを学習する生成DAフレームワークである。
本研究では,FlowDASがモデル駆動法,ニューラル演算子,スコアベースベースラインを超える精度と物理的妥当性を示す。
論文 参考訳(メタデータ) (2025-01-13T05:03:41Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。