論文の概要: Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs
- arxiv url: http://arxiv.org/abs/2601.06423v1
- Date: Sat, 10 Jan 2026 04:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.804897
- Title: Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs
- Title(参考訳): 推論スケーリングは忠実度推論を改善するか? : 自己整合トレードオフのマルチモデル解析
- Authors: Deep Mehta,
- Abstract要約: 自己整合性は、推論タスクにおける大きな言語モデルの精度を改善するための一般的な手法として現れてきた。
推論スケーリングは信頼の推論を改善するのか?
我々は、100 GSM8Kの数学的推論問題に対して、4つのフロンティアモデル(GPT-5.2、Claude Opus 4.5、Gemini-3-flash-preview、DeepSeek-v3.2)にわたる総合的な実証的研究を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-consistency has emerged as a popular technique for improving large language model accuracy on reasoning tasks. The approach is straightforward: generate multiple reasoning paths and select the most common answer through majority voting. While this reliably boosts accuracy, it remains unclear whether these gains reflect genuine improvements in reasoning quality. We investigate a fundamental question that has not been studied before: does inference scaling improve reasoning faithfulness? We conduct a comprehensive empirical study across four frontier models (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview, and DeepSeek-v3.2) on 100 GSM8K mathematical reasoning problems. Our analysis employs bootstrap confidence intervals, McNemar's tests for paired comparisons, and Cohen's d effect sizes to quantify the effects rigorously. The results reveal striking differences across models that challenge common assumptions about self-consistency. GPT-5.2 shows the expected pattern: accuracy improves from 78% to 90% at N=5, with faithfulness remaining relatively stable (0.540 to 0.510). Claude Opus 4.5 tells a completely different story. Its accuracy actually drops from 78% to 74.3% while faithfulness jumps dramatically from 0.270 to 0.891 at N=5. DeepSeek-v3.2, already at 98% accuracy, shows ceiling effects with modest faithfulness gains (0.440 to 0.541). Gemini-3-flash improves from 81% to 86% accuracy with a slight faithfulness decrease (0.260 to 0.212). Problem difficulty analysis reveals that GPT-5.2 solves 82% of hard problems while breaking only 13% of easy ones. Claude, in contrast, breaks 23% of easy problems, explaining its accuracy decrease. These findings matter for practitioners: self-consistency is not universally beneficial, and teams should test their specific models before deployment. We release our code and provide practical recommendations for navigating these tradeoffs.
- Abstract(参考訳): 自己整合性は、推論タスクにおける大きな言語モデルの精度を改善するための一般的な手法として現れてきた。
複数の推論パスを生成し、多数決によって最も一般的な回答を選択する。
これは精度を確実に向上させるが、これらが推論品質の真の改善を反映しているかどうかは不明だ。
推論スケーリングは信頼の推論を改善するのか?
我々は、100 GSM8Kの数学的推論問題に対して、4つのフロンティアモデル(GPT-5.2、Claude Opus 4.5、Gemini-3-flash-preview、DeepSeek-v3.2)にわたる総合的な実証的研究を行った。
我々の分析では、ブートストラップの信頼区間、ペア比較のためのマクネマールのテスト、コーエンのd効果サイズを用いて、その効果を厳密に定量化している。
その結果、自己整合性に関する一般的な仮定に挑戦するモデル間で、顕著な違いが明らかになった。
GPT-5.2は、精度が78%から90%に向上し、信頼性は比較的安定している(0.540から0.510)。
クロード・オプス 4.5 は全く異なる物語を語る。
精度は実際には78%から74.3%に低下し、忠実度はN=5で0.270から0.891に劇的に上昇した。
DeepSeek-v3.2は98%の精度で、天井効果と質素な忠実度(0.440から0.541)の上昇を示す。
Gemini-3-flashは精度が81%から86%に改善され、忠実度はわずかに低下する(0.260から0.212)。
GPT-5.2は難解な問題の82%を解き、難易度は13%に過ぎなかった。
対照的に、クロードは難解な問題の23%を破り、精度の低下を説明する。
これらの発見は実践者にとって重要である: 自己整合性は普遍的に有益ではなく、チームはデプロイ前に独自のモデルをテストすべきである。
コードをリリースし、これらのトレードオフをナビゲートするための実用的なレコメンデーションを提供します。
関連論文リスト
- Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Accurate and Reliable Predictions with Mutual-Transport Ensemble [46.368395985214875]
Kullback-Leibler (KL) を用いた共学習補助モデルの提案とクロスエントロピー損失の適応的正則化
MTEは精度と不確実性の両方を同時に向上させることができる。
例えば、CIFAR-100データセットでは、我々のResNet34/50上のMTEメソッドは、従来の最先端の手法に比べて大幅に改善された。
論文 参考訳(メタデータ) (2024-05-30T03:15:59Z) - Certified Robust Accuracy of Neural Networks Are Bounded due to Bayes Errors [3.350980549219263]
認定トレーニングは頑丈さを向上するが、精度も著しく低下する。
正確性を保ちながら頑健性を達成するための一定の基本的限界があるかどうかは不明である。
ベイズ誤差をロバスト性解析に適用することにより、確証されたロバスト精度の限界について検討する。
論文 参考訳(メタデータ) (2024-05-19T13:23:05Z) - BaRDa: A Belief and Reasoning Dataset that Separates Factual Accuracy and Reasoning Ability [35.743903178120895]
BaRDaデータセットには3000のエンターメントが含まれている(1787年有効、1213年無効)
実際の精度(真実)は74.1/80.6/82.6/87.1で、推論精度は63.1/78.0/71.8/79.2である。
このことは、事実の正確さと細部推論を改善するためのモデルの明確な進歩を示している。
論文 参考訳(メタデータ) (2023-12-12T18:55:43Z) - Show Your Work with Confidence: Confidence Bands for Tuning Curves [51.12106543561089]
チューニング作業の関数としての曲線プロット検証性能。
そこで我々は,曲線のチューニングに有効な信頼帯域を構築するための最初の方法を提案する。
提案手法と比較し,提案手法の有効性を検証し,サンプルサイズの影響を解析し,モデルの比較に関するガイダンスを提供する。
論文 参考訳(メタデータ) (2023-11-16T00:50:37Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。