Fugu-MT 論文翻訳(概要): An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models

論文の概要: An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models

arxiv url: http://arxiv.org/abs/2606.01462v1
Date: Sun, 31 May 2026 21:46:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:29.716139
Title: An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models
Title（参考訳）: 人工推論のエニグマ:大規模推論モデルにおける生産評価ギャップの検討
Authors: Mingzhong Sun, Teresa Yeo, Armando Solar-Lezama, Tan Zhi-Xuan,
Abstract要約: 大規模推論モデル(LRM)は、複雑な問題を解くための長い推論の連鎖を創出するために訓練されていることを示す。本稿では,有意な推論欠陥を伴う数学問題と解法について,Valid-Answer-Invalid-Reasoningデータセットを用いて検討する。人類と異なり、これらの問題を解くよりも格付けするとわずか6%の差しかみられず、LRMの生産・評価の差は相当に大きい。
参考スコア（独自算出の注目度）: 9.017619024241913
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Studies of human reasoning have shown that people are typically stronger at evaluating reasoning than producing it from scratch. In contrast, large reasoning models (LRMs) are trained to excel at producing long chains of reasoning to solve complex problems. How then do LRMs perform at evaluating reasons? We investigate this with the Valid-Answer-Invalid-Reasoning (VAIR) dataset: math problems and solutions with trivial reasoning flaws but valid answers, designed to isolate reasoning evaluation from the confound of reasoning production. Unlike humans, who we find are only 6% worse at grading than solving such problems, we find a substantial production-evaluation gap in LRMs: frontier models score as low as 48% when evaluating VAIR solutions, despite near-perfect solution production. Why this enigma? Through chain-of-thought (CoT) analysis, we find evidence of an answer confirmation bias: LRMs often produce then check for the correct answer instead of carefully verifying each step, fabricating rationalizations even when noticing anomalous reasoning. Linear probes corroborate this, showing that while LRM activations encode some representation of valid reasoning, they fail to robustly represent VAIR solutions as invalid. Causal patching of the final answer's representations causes LRM verdicts and activations to flip, demonstrating that answer validity is responsible for models' confirmation biases. These findings indicate an outstanding limitation in dominant approaches to reasoning training, which incentivize LRMs to produce and confirm reasoning towards correct answers, but not to robustly evaluate the underlying reasons.
Abstract（参考訳）: 人間の推論の研究は、典型的に人は推論をスクラッチから生成するよりも、推論を評価する方が強いことを示している。対照的に、大きな推論モデル(LRM)は、複雑な問題を解決するための長い推論の連鎖を創出するために訓練される。 LRMは理由を評価する上で、どのように機能するのか? 本稿では,VAIR(Valid-Answer-Invalid-Reasoning)データセットを用いてこれを検証する。人間と違い、これらの問題を解くよりも格段に悪いのは6%しかありませんが、LRMでは相当な生産・評価のギャップが見られます。なぜこのエニグマ? チェーン・オブ・シント(CoT)分析により、答えの確認バイアスの証拠が見つかる: LRMは、しばしば、各ステップを慎重に検証するのではなく、正しい答えをチェックし、異常な推論に気付いても合理化を作成する。リニアプローブは、LRMアクティベーションが妥当な推論の表現をエンコードしている一方で、VAIRソリューションを無効として頑健に表現することができないことを示す。最終回答の表現の因果的パッチングは LRM の評定とアクティベーションを反転させ、答えの妥当性がモデルの確証バイアスの原因であることを示す。これらの知見は, LRMが正しい回答を導き, 確認するための動機付けを行うが, 根本原因をしっかりと評価することができない, 推論訓練における主要なアプローチの限界を示唆している。

関連論文リスト

When Is Thinking Enough? Early Exit via Sufficiency Assessment for Efficient Reasoning [52.21239821135325]
本稿では、効率的な推論のための新しいフレームワークDTSR(Dynamic Thought Sufficiency in Reasoning)を紹介する。人間のメタ認知にインスパイアされたDTSRは、リフレクションシグナルモニタリングとThought Sufficiency Checkという2つの段階で動作する。 DTSRは推論長を28.9%から34.9%削減し、性能損失を最小限に抑えている。
論文参考訳（メタデータ） (2026-04-08T07:56:28Z)
Are Latent Reasoning Models Easily Interpretable? [8.215015010040917]
潜在推論モデル(LRM)は推論コストの低さから研究の関心を集めている。 LRMは自然言語では意味がないため、監視が難しい。本稿では,2つの最先端のLEMを検証し,LRMの解釈可能性について検討する。
論文参考訳（メタデータ） (2026-04-06T17:50:06Z)
Finding RELIEF: Shaping Reasoning Behavior without Reasoning Supervision via Belief Engineering [25.183793455770978]
大きな推論モデル(LRM)は複雑な問題解決において顕著な成功を収めているが、計算の冗長性や不誠実さの推論に悩まされることが多い。本稿では,RELIEF(Reasoning Belief Engineering)を提案する。RELIEF(Reasoning Belief Engineering)は,モデルの自己概念と目標信念の青写真とを整合させることにより,LEMの振る舞いを形作るフレームワークである。 RELIEFは、目的の信念を肯定する自己反射的質問応答ペアを微調整することによって、望ましい特性を内部化する。
論文参考訳（メタデータ） (2026-01-20T09:07:01Z)
MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning Models [43.872922223495586]
大きな推論モデル(LRM)は複雑な推論において強い能力を示すが、証拠に依存した事実問題に対する限界的な利得は限られている。この制限は、モデルが推論中に正しい事実を識別するが、最終的な応答にそれらを組み込むことができない、推論と問合せのギャップに起因する。本稿では,外部検証に頼らずに事実性を高めるフレームワークMR-ALIGNを提案する。
論文参考訳（メタデータ） (2025-10-27T15:00:54Z)
From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。 DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文参考訳（メタデータ） (2025-10-13T14:29:15Z)
On the Self-awareness of Large Reasoning Models' Capability Boundaries [46.74014595035246]
本稿では,Large Reasoning Models (LRM) が機能境界の自己認識性を持っているかを検討する。ブラックボックスモデルでは、推論式は境界信号を明らかにし、解決不可能な問題に対する信頼軌道は加速するが、解決不可能な問題に対する収束不確実軌道は加速する。ホワイトボックスモデルでは,最後の入力トークンの隠れ状態が境界情報を符号化し,解答可能かつ解答不能な問題を推論開始前に線形分離可能であることを示す。
論文参考訳（メタデータ） (2025-09-29T12:40:47Z)
On Reasoning Strength Planning in Large Reasoning Models [50.61816666920207]
我々は, LRM が, 世代前においても, アクティベーションにおける推論強度を事前に計画している証拠を見出した。次に、LEMがモデルのアクティベーションに埋め込まれた方向ベクトルによって、この推論強度を符号化していることを明らかにする。我々の研究は、LEMにおける推論の内部メカニズムに関する新たな洞察を提供し、それらの推論行動を制御するための実践的なツールを提供する。
論文参考訳（メタデータ） (2025-06-10T02:55:13Z)
Are Reasoning Models More Prone to Hallucination? [70.04436965009072]
最近進化した大推論モデル(LRM)は、長いチェーン・オブ・シークレット(CoT)推論能力を持つ複雑なタスクを解く上で、強力な性能を示している。推論モデルは幻覚の傾向が強いか? 本稿では3つの観点からその問題に対処する。
論文参考訳（メタデータ） (2025-05-29T16:53:41Z)
Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns [79.42805969325036]
プロセス・リワード・モデル(PRM)は複雑な推論と問題解決に不可欠である。 PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。既存のベンチマークは主に、段階的に正しいPRMを評価することに焦点を当てている。 Socratic-PRMBenchは、6つの推論パターンでPRMを体系的に評価する新しいベンチマークである。
論文参考訳（メタデータ） (2025-05-29T14:26:53Z)
BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs [87.24843751412783]
本稿では,簡潔かつ境界認識の事実推論を促進するフレームワークであるBARRELを提案する。 BARRELトレーニングにより,DeepSeek-R1-Distill-Llama-8Bの信頼性は39.33%から61.48%向上した。
論文参考訳（メタデータ） (2025-05-18T07:27:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。