論文の概要: Boosting Process-Correct CoT Reasoning by Modeling Solvability of Multiple-Choice QA
- arxiv url: http://arxiv.org/abs/2509.25941v1
- Date: Tue, 30 Sep 2025 08:34:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.480606
- Title: Boosting Process-Correct CoT Reasoning by Modeling Solvability of Multiple-Choice QA
- Title(参考訳): マルチコースQAの可解性モデリングによる正正 CoT 推論の高速化
- Authors: Raphael Schumann, Stefan Riezler,
- Abstract要約: モデルに対して質問が効果的に解決できない場合、思考の急激な連鎖(CoT)が出現しがちであることを示す。
結果監督型報酬モデルと強化学習をグループ相対的優位性で適用し,その目的に可解性を取り入れた。
本結果は,CoT推論における幻覚の低減と信頼性向上の鍵要因として可溶性を強調した。
- 参考スコア(独自算出の注目度): 10.122669382758122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning quality in large language models depends not only on producing correct answers but also on generating valid intermediate steps. We study this through multiple-choice question answering (MCQA), which provides a controlled setting with fixed answer options. Our analysis shows that when questions are effectively unsolvable for a model, spurious chains of thought (CoTs) are more likely to appear, leading to false positives. By estimating the solvability of each question, we uncover an intermediate regime where learning is most effective. Building on this insight, we adapt outcome-supervised reward models and reinforcement learning with group-relative advantage to incorporate solvability into their objectives. Across experiments on math and multimodal datasets, these modifications consistently yield higher rates of process-correct reasoning and, in reinforcement learning, improved answer accuracy as well. Our results highlight solvability as a key factor for reducing hallucinations and increasing reliability in CoT reasoning.
- Abstract(参考訳): 大規模言語モデルの推論品質は、正しい回答を生成するだけでなく、有効な中間ステップを生成することにも依存する。
我々はこれを、固定された解答オプションで制御された設定を提供するMCQA(Multiple-choice Question answering)を通して研究する。
我々の分析では、モデルに対して質問が効果的に解決できない場合、思考の急激な連鎖(CoT)が出現しやすくなり、誤った肯定がもたらされることが示されている。
各質問の解答可能性を推定することにより、学習が最も効果的である中間体制を明らかにする。
この知見に基づいて,結果監督型報酬モデルと強化学習をグループ相対的優位性で適用し,その目的に可解性を組み込む。
数学とマルチモーダルデータセットに関する実験を通して、これらの修正はプロセスの正しい推論の速度を常に向上させ、強化学習では答えの正確性も向上した。
本結果は,CoT推論における幻覚の低減と信頼性向上の鍵要因として可溶性を強調した。
関連論文リスト
- The Majority is not always right: RL training for solution aggregation [53.1050856072799]
我々はアグリゲータモデルをトレーニングし、最終的な正解をレビューし、精査し、合成する。
重要な要素は、簡単なトレーニング例と厳しいトレーニング例のバランスを取ることだ。
我々の手法であるAggLMは、強いルールベースと報酬モデルベースラインの両方を上回ります。
論文 参考訳(メタデータ) (2025-09-08T16:39:38Z) - Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - Chain-of-Probe: Examining the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。
心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。
我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文 参考訳(メタデータ) (2024-06-23T15:50:22Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。
偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。
本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2021-06-14T05:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。