論文の概要: Are Your Reasoning Models Reasoning or Guessing? A Mechanistic Analysis of Hierarchical Reasoning Models
- arxiv url: http://arxiv.org/abs/2601.10679v1
- Date: Thu, 15 Jan 2026 18:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.269577
- Title: Are Your Reasoning Models Reasoning or Guessing? A Mechanistic Analysis of Hierarchical Reasoning Models
- Title(参考訳): 推論モデルは推論か誘導か?階層的推論モデルの力学解析
- Authors: Zirui Ren, Ziming Liu,
- Abstract要約: 階層的推論モデル(HRM)は、様々な推論タスクにおいて異常な性能を達成する。
我々は、その推論パターンに関する機械論的研究を行い、3つの驚くべき事実を見出す。
すべての事実は、HRMが「理性」ではなく「口論」であることを示している。
- 参考スコア(独自算出の注目度): 21.565115944280084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical reasoning model (HRM) achieves extraordinary performance on various reasoning tasks, significantly outperforming large language model-based reasoners. To understand the strengths and potential failure modes of HRM, we conduct a mechanistic study on its reasoning patterns and find three surprising facts: (a) Failure of extremely simple puzzles, e.g., HRM can fail on a puzzle with only one unknown cell. We attribute this failure to the violation of the fixed point property, a fundamental assumption of HRM. (b) "Grokking" dynamics in reasoning steps, i.e., the answer is not improved uniformly, but instead there is a critical reasoning step that suddenly makes the answer correct; (c) Existence of multiple fixed points. HRM "guesses" the first fixed point, which could be incorrect, and gets trapped there for a while or forever. All facts imply that HRM appears to be "guessing" instead of "reasoning". Leveraging this "guessing" picture, we propose three strategies to scale HRM's guesses: data augmentation (scaling the quality of guesses), input perturbation (scaling the number of guesses by leveraging inference randomness), and model bootstrapping (scaling the number of guesses by leveraging training randomness). On the practical side, by combining all methods, we develop Augmented HRM, boosting accuracy on Sudoku-Extreme from 54.5% to 96.9%. On the scientific side, our analysis provides new insights into how reasoning models "reason".
- Abstract(参考訳): 階層的推論モデル(HRM)は、様々な推論タスクにおいて異常な性能を達成し、大きな言語モデルに基づく推論よりも著しく優れている。
HRMの強みと潜在的な失敗モードを理解するために、その推論パターンに関する力学的研究を行い、3つの驚くべき事実を見出す。
(a)非常に単純なパズルの失敗、例えば、HRMは1つの未知のセルしか持たないパズルで失敗する。
この失敗は、HRMの基本的な前提である固定点特性の違反によるものである。
b) 推論ステップにおける「グロッキング」のダイナミクス、すなわち、解答は一様ではなく、突然解答を正す批判的推論ステップが存在すること。
(c)複数の固定点が存在すること。
HRMは最初の固定点を「ゲッス」し、これは誤りであり、しばらく、永久にそこに閉じ込められる可能性がある。
すべての事実は、HRMが「理屈」ではなく「口論」であることを示している。
この「ゲーシング」の図を用いて、HRMの推測をスケールするための3つの戦略を提案する。データ拡張(推測の質をスケーリングする)、入力摂動(推論ランダム性を利用して推測数をスケーリングする)、モデルブートストラップ(予測数をトレーニングランダム性を利用してスケーリングする)である。
実用面では、すべての手法を組み合わせることで、Sudoku-Extremeの精度を54.5%から96.9%に向上させる拡張HRMを開発した。
科学的側面から、我々の分析は推論モデルがいかに「理性」であるかについての新しい洞察を提供する。
関連論文リスト
- Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning [75.79451512757844]
基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。
RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。
RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
論文 参考訳(メタデータ) (2025-11-10T18:25:26Z) - HRM-Agent: Training a recurrent reasoning model in dynamic environments using reinforcement learning [0.0]
我々は,HRMが動的かつ不確実な迷路環境において,目標への移動を学べることを示す。
近年の研究では、HRMの推論能力はその再帰的推論プロセスに由来することが示唆されている。
本研究では, 再帰的推論プロセスのダイナミクスを探求し, 初期の環境時間ステップから計算を再利用していることを示す。
論文 参考訳(メタデータ) (2025-10-26T21:01:04Z) - Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models [33.398631680508814]
本稿では,GRPOアルゴリズムを補助的整合性チェックで修正するAnswer-Consistent Reinforcement Learningを提案する。
我々は、オリジナルとポストシャッフルの両方の回答が一致して正しい場合にのみ高い報酬を与える一貫性検証報酬を設計する。
我々は、ACREを挑戦的なビデオ推論ベンチマークとマルチモーダル数学推論ベンチマークで評価し、平均2.2%と1.5%の改善を達成した。
論文 参考訳(メタデータ) (2025-10-11T08:32:52Z) - Reasoning or Retrieval? A Study of Answer Attribution on Large Reasoning Models [15.797612515648412]
大きな推論モデル (LRMs) は、Chain-of-Thought (CoT) 推論を通じて複雑な問題を解く際、前例のない能力を示す。
最近の研究では、彼らの最後の答えは、しばしば彼ら自身の推論の痕跡と矛盾していることが明らかになっている。
この矛盾は、CoT推論とメモリ検索という2つの競合メカニズムに起因していると仮定する。
本稿では,メモリアンラーニングと強化学習を統合したファインチューニングフレームワークFARLを紹介する。
論文 参考訳(メタデータ) (2025-09-29T01:13:33Z) - Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Self-Critique Guided Iterative Reasoning for Multi-hop Question Answering [24.446222685949227]
大規模言語モデル(LLM)は知識集約型マルチホップ推論の課題に直面している。
自己批判型反復推論(SiGIR)を提案する。
SiGIRは、反復推論プロセスのガイドに自己批判的なフィードバックを使用する。
論文 参考訳(メタデータ) (2025-05-25T12:10:24Z) - ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models [25.870593499694092]
推論モデルの隠れ表現に、推論の長さがどのように埋め込まれているかを検討する。
我々は、過剰に短い推論の問題を軽減するために、シンプルだが効果的な重み付けアプローチであるThinkEditを紹介した。
論文 参考訳(メタデータ) (2025-03-27T23:53:45Z) - Reward Models Identify Consistency, Not Causality [54.987590763737145]
最先端の報酬モデルでは、因果正しさよりも構造的な一貫性が優先される。
問題文の削除は報酬のスコアに最小限の影響を与える。
数値を変更するか、推論フローを乱すかは、RM出力に大きく影響する。
論文 参考訳(メタデータ) (2025-02-20T14:57:14Z) - Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。
我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文 参考訳(メタデータ) (2024-02-05T18:25:51Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。