論文の概要: Mitigating Cognitive Inertia in Large Reasoning Models via Latent Spike Steering
- arxiv url: http://arxiv.org/abs/2601.22484v1
- Date: Fri, 30 Jan 2026 02:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.177779
- Title: Mitigating Cognitive Inertia in Large Reasoning Models via Latent Spike Steering
- Title(参考訳): 潜在スパイクステアリングによる大規模推論モデルにおける認知慣性の緩和
- Authors: Seojin Lee, ByeongJeong Kim, Hwanhee Lee,
- Abstract要約: 大規模推論モデル(LRM)は、テスト時間計算をスケールすることで、優れた性能を実現している。
LRMは、しばしば認知的慣性(動作慣性)または剛性(方向慣性)のどちらかを過度に考える失敗パターンである認知的慣性(Cognitive Inertia)に悩まされる。
- 参考スコア(独自算出の注目度): 12.332146893333949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Reasoning Models (LRMs) have achieved remarkable performance by scaling test-time compute, they frequently suffer from Cognitive Inertia, a failure pattern manifesting as either overthinking (inertia of motion) or reasoning rigidity (inertia of direction). Existing detection methods, typically relying on superficial textual heuristics like self-correction tokens, often fail to capture the model's unvoiced internal conflicts. To address this, we propose STARS (Spike-Triggered Adaptive Reasoning Steering), a training-free framework designed to rectify cognitive inertia by monitoring latent dynamics. STARS identifies Cognitive Pivots-critical moments of reasoning transition-by detecting distinct L2 distance spikes in the hidden states. Upon detection, the framework employs geometric trajectory analysis to diagnose the structural nature of the transition and injects state-aware language cues to steer the model in real-time. Our experiments across diverse benchmarks confirm that STARS efficiently curtails redundant loops while improving accuracy through the adaptive correction of erroneous trajectories. STARS offers a robust, unsupervised mechanism to optimize the reasoning process of LRMs without requiring additional fine-tuning.
- Abstract(参考訳): 大規模推論モデル(LRM)は、テスト時間計算をスケールすることで顕著なパフォーマンスを達成したが、しばしば認知慣性(Cognitive Inertia)に悩まされる。
既存の検出手法は、通常は自己訂正トークンのような表面的なテキストヒューリスティックに依存しており、しばしばモデルの内部衝突を捉えるのに失敗する。
そこで本研究では,潜在力学をモニタリングすることによって認知慣性を改善するための学習自由フレームワークであるSTARSを提案する。
STARSは、隠された状態における異なるL2距離のスパイクを検出することによって、遷移を推論する認知的なPivots臨界モーメントを特定する。
検出時に、このフレームワークは幾何学的軌跡解析を用いて遷移の構造的性質を診断し、状態認識言語キューを注入し、モデルをリアルタイムで操縦する。
各種ベンチマークを用いた実験により,STARSは冗長ループを効率よく削減し,誤軌道の適応補正により精度を向上することを確認した。
STARSは、追加の微調整を必要とせず、LEMの推論プロセスを最適化する堅牢で教師なしのメカニズムを提供する。
関連論文リスト
- CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - Understanding and Steering the Cognitive Behaviors of Reasoning Models at Test-Time [22.9491443902816]
本研究では、推論軌跡の構造と、異なる認知行動と相関する特別な注意点を明らかにする。
テスト時間における認知推論ステアリングのトレーニング不要な方法であるCRESTを提案する。
CRESTは非生産的推論の振る舞いを適応的に抑制し、高い精度と低い計算コストをもたらす。
論文 参考訳(メタデータ) (2025-12-31T02:46:04Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。
コードとデータセットを含む、対応するリソースをリリースしました。
論文 参考訳(メタデータ) (2025-09-18T07:35:58Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。