論文の概要: Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models
- arxiv url: http://arxiv.org/abs/2605.12519v1
- Date: Fri, 03 Apr 2026 15:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.777908
- Title: Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models
- Title(参考訳): 音響推論からの正解:言語モデルのための検証プロセススーパービジョン
- Authors: Kyuyoung Kim, Kevin Wang, Yunfei Xie, Peiyang Xu, Peiyao Sheng, Chen Wei, Zhangyang Wang, Jinwoo Shin, Pramod Viswanath, Sewoong Oh,
- Abstract要約: 本稿では,予測精度と推論品質を協調的に最適化する検証済み領域の学習後フレームワークを提案する。
我々は,エンジン信号に対して推論ステップを確定的に検証できる制御テストベッドであるチェスのVPSを評価する。
VPSは、推論品質を著しく向上させながら精度を保ち、勝利率エラーを最大30%削減し、一貫性をほぼ飽和状態に回復する。
- 参考スコア(独自算出の注目度): 94.68358825189738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training language models to produce both correct answers and sound reasoning remains an open challenge. Reinforcement learning with verifiable rewards typically optimizes only final outcomes, which can lead to a failure mode where task accuracy improves while reasoning becomes less accurate, less complete, or even internally inconsistent. We propose verifiable process supervision (VPS), a post-training framework for verifiable domains that jointly optimizes prediction accuracy and reasoning quality. We first apply supervised fine-tuning to induce a structured reasoning format, enabling syntactic extraction of intermediate claims that are evaluated against ground-truth signals to form process-level rewards. To address the heterogeneous difficulty of reasoning subtasks, we introduce adaptive reward weighting that prioritizes components with the largest remaining errors, creating an implicit curriculum. We evaluate VPS on chess, a controlled testbed where reasoning steps can be deterministically verified against engine signals. While accuracy-only RL improves move accuracy, it sharply degrades reasoning quality, increasing win-rate error by up to 112% and reducing internal consistency by up to 69%. In contrast, VPS preserves accuracy while significantly improving reasoning quality, reducing win-rate error by up to 30% and restoring consistency to near saturation. At matched accuracy, judge evaluation also prefers the process-supervised models. A reasoning-space analysis further shows that, without a structured prior, accuracy-only RL converges to budget-dependent shortcuts rather than sound multi-step reasoning. These results show that VPS enables language models to reason both accurately and reliably in verifiable domains.
- Abstract(参考訳): 正しい答えと健全な推論の両方を生み出すための言語モデルを訓練することは、依然としてオープンな課題である。
検証可能な報酬を伴う強化学習は、一般的に最終結果のみを最適化し、推論が正確でない、完全でない、あるいは内部的に矛盾する、タスクの精度が向上する障害モードにつながる可能性がある。
本稿では,予測精度と推論品質を協調的に最適化する検証済み領域の学習後フレームワークである検証済みプロセス監視(VPS)を提案する。
まず、教師付き微調整を応用して構造化された推論形式を導出し、基底構造信号に対して評価される中間クレームの構文的抽出を可能にし、プロセスレベルの報酬を形成する。
サブタスクを推論することの不均一な困難に対処するために,最大残差のコンポーネントを優先する適応的な報酬重み付けを導入し,暗黙のカリキュラムを作成する。
我々は,エンジン信号に対して推論ステップを確定的に検証できる制御テストベッドであるチェスのVPSを評価する。
精度のみのRLは移動精度を改善するが、推論品質を著しく低下させ、勝利率エラーを最大112%増加させ、内部の一貫性を最大69%低下させる。
対照的に、VPSは推論品質を著しく向上させながら精度を保ち、勝利率エラーを最大30%削減し、一貫性をほぼ飽和状態に回復する。
一致した精度では、審査員はプロセス管理モデルも好んでいる。
推論空間解析により、事前構造化されていない場合、精度のみのRLは、健全なマルチステップ推論よりも予算依存のショートカットに収束することが示された。
これらの結果から,VPSは検証可能な領域において,言語モデルの正確かつ確実な推論を可能にした。
関連論文リスト
- Stabilizing Efficient Reasoning with Step-Level Advantage Selection [54.563811052329235]
我々は,長さを意識しない標準のGRPOを用いて,短文のポストトレーニング単独で,すでにかなりの推理圧縮を誘導していることを示す。
そこで本稿では, 適切なロールアウトにおける低信頼度ステップと, 検証済みロールアウトにおける高信頼度ステップにゼロアドバンテージを割り当てるステップレベルアドバンテージ選択(SAS)を提案する。
論文 参考訳(メタデータ) (2026-04-27T03:34:59Z) - RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models [5.733004743054914]
大規模な推論モデル(LRM)は、強い性能を示すが、しばしば妥当に聞こえるが、真の決定過程を反映しない合理性を生み出す。
2つのテスト可能な条件で定義された忠実性を推論するための公式な枠組みを導入する。
RFEvalは、7,186インスタンスのベンチマークであり、制御された出力レベルの対実的介入を通じて忠実さを調査する。
論文 参考訳(メタデータ) (2026-02-19T03:49:37Z) - Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.26461635308796]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。
我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。
我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文 参考訳(メタデータ) (2026-02-04T15:24:52Z) - InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning [32.274434679047395]
アウトカム・リワード強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上に有効であることが証明された。
標準RLは最終回答のレベルにのみクレジットを割り当て、結果が正しくない場合にすべての推論トレースを罰する。
Invention Training (InT) は、モデルが独自の推論トレースに基づいてきめ細かいクレジット割り当てを行う訓練パラダイムである。
論文 参考訳(メタデータ) (2026-01-20T18:15:38Z) - Incorporating Self-Rewriting into Large Language Model Reasoning Reinforcement [54.63337314382886]
自己書き起こしフレームワークを導入し、モデルが独自の推論テキストを書き直し、その後、書き直し推論から学習し、内部思考プロセスの品質を向上させる。
アルゴリズム設計において、モデルの一貫した正当性によって定義される「単純な」サンプルのみを書き換える選択的な書き換え手法を提案する。
モデルサイズが異なる多様なタスクの実験は、自己書き換えの有効性を検証する。
論文 参考訳(メタデータ) (2025-11-20T13:10:52Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - Inducing Faithfulness in Structured Reasoning via Counterfactual Sensitivity [6.908972852063454]
大規模言語モデルは、欠陥や無関係な推論トレースに依存しながら、正しい答えを生成することが多い。
本稿では,新しい学習目標であるtextbfCounterfactual Sensitivity Regularization (CSR)を紹介する。
CSRは、標準的な微調整とプロセスの監督に対する忠実度を最大70パーセント向上させる。
論文 参考訳(メタデータ) (2025-09-01T15:18:46Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - STRIVE: Structured Reasoning for Self-Improvement in Claim Verification [30.15803409441136]
自己改善検証のための構造化推論を提案する。
本稿では,Crim Decomposition,Entity Analysis,Evidence Grounding Verificationを用いた構造化推論設計を提案する。
その後、すべてのトレーニング例に対して推論連鎖を生成するために適用され、その後の自己改善トレーニングのために正確で構造的に健全なもののみを選択する。
論文 参考訳(メタデータ) (2025-02-17T16:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。