論文の概要: Decoding the Critique Mechanism in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2603.16331v1
- Date: Tue, 17 Mar 2026 10:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.212126
- Title: Decoding the Critique Mechanism in Large Reasoning Models
- Title(参考訳): 大規模推論モデルにおける批判機構の復号化
- Authors: Hoang Phan, Quang H. Nguyen, Hung T. Q. Le, Xiusi Chen, Heng Ji, Khoa D. Doan,
- Abstract要約: 大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。
中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。
チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
- 参考スコア(独自算出の注目度): 50.821607345799386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) exhibit backtracking and self-verification mechanisms that enable them to revise intermediate steps and reach correct solutions, yielding strong performance on complex logical benchmarks. We hypothesize that such behaviors are beneficial only when the model has sufficiently strong "critique" ability to detect its own mistakes. This work systematically investigates how current LRMs recover from errors by inserting arithmetic mistakes in their intermediate reasoning steps. Notably, we discover a peculiar yet important phenomenon: despite the error propagating through the chain-of-thought (CoT), resulting in an incorrect intermediate conclusion, the model still reaches the correct final answer. This recovery implies that the model must possess an internal mechanism to detect errors and trigger self-correction, which we refer to as the hidden critique ability. Building on feature space analysis, we identify a highly interpretable critique vector representing this behavior. Extensive experiments across multiple model scales and families demonstrate that steering latent representations with this vector improves the model's error detection capability and enhances the performance of test-time scaling at no extra training cost. Our findings provide a valuable understanding of LRMs' critique behavior, suggesting a promising direction to control and improve their self-verification mechanism. Our code is available at https://github.com/mail-research/lrm-critique-vectors.
- Abstract(参考訳): 大規模推論モデル(LRM)は、中間ステップを修正して正しい解に到達できるようにバックトラックと自己検証のメカニズムを示し、複雑な論理ベンチマークで高い性能を得る。
このような行動は、モデルが自身の誤りを検出するのに十分な「批判的」能力を持っている場合にのみ有益である、という仮説を立てる。
本研究は,中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを系統的に検討する。
チェーン・オブ・シンクレット(CoT)を通した誤りが原因で、誤った中間解が導かれるにもかかわらず、モデルは依然として正しい最終解に到達している。
この回復は、モデルがエラーを検出し、自己補正を引き起こす内部メカニズムを持っていなければならないことを意味する。
特徴空間解析に基づいて,この挙動を表す高度に解釈可能な批判ベクトルを同定する。
複数のモデルスケールとファミリーにわたる大規模な実験により、このベクトルで潜在表現を操ることで、モデルのエラー検出能力が向上し、余分なトレーニングコストなしでテスト時間スケーリングのパフォーマンスが向上することを示した。
以上の結果から, LRMの自己検証機構を制御し, 改善する上で有望な方向性が示唆された。
私たちのコードはhttps://github.com/mail-research/lrm-critique-vectors.comで利用可能です。
関連論文リスト
- Mitigating Cognitive Inertia in Large Reasoning Models via Latent Spike Steering [12.332146893333949]
大規模推論モデル(LRM)は、テスト時間計算をスケールすることで、優れた性能を実現している。
LRMは、しばしば認知的慣性(動作慣性)または剛性(方向慣性)のどちらかを過度に考える失敗パターンである認知的慣性(Cognitive Inertia)に悩まされる。
論文 参考訳(メタデータ) (2026-01-30T02:47:12Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning [4.768151813962547]
大規模言語モデル(LLM)は、驚くべき数学的推論能力を示している。
それらの性能は、問題記述と迅速な戦略の微妙なバリエーションに引き続き脆弱である。
近年のモデルの自己補正能力をよりよく理解するために,モデルが自己補正合成を行う能力を測定する実験を行った。
論文 参考訳(メタデータ) (2025-06-18T21:35:44Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。