論文の概要: Calibrated Reasoning: An Explanatory Verifier for Dynamic and Efficient Problem-Solving
- arxiv url: http://arxiv.org/abs/2509.19681v1
- Date: Wed, 24 Sep 2025 01:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.656598
- Title: Calibrated Reasoning: An Explanatory Verifier for Dynamic and Efficient Problem-Solving
- Title(参考訳): Calibrated Reasoning: 動的かつ効率的な問題解決のための説明検証器
- Authors: Anisha Garg, Engin Tekin, Yash More, David Bick, Nishit Neema, Ganesh Venkatesh,
- Abstract要約: そこで本稿では,評価スコアと関連する自然言語推論値を生成するペアワイズ説明検証手法を提案する。
我々の検証器は、ベスト・オブ・nやセルフ・リフレクションのようなテスト時間戦略の精度と効率を向上させる。
- 参考スコア(独自算出の注目度): 2.357104785442987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced test-time computing strategies are essential for scaling reasoning models, but their effectiveness is capped by the models' poor self-evaluation. We propose a pairwise Explanatory Verifier, trained via reinforcement learning (GRPO), that produces calibrated confidence scores and associated natural language reasoning for generated solutions. Our verifier improves the accuracy and efficiency of test-time strategies like best-of-n and self-reflection. Crucially, it excels at identifying challenging failure modes, such as when both candidate solutions are identically incorrect, succeeding where standard methods like majority voting fail.
- Abstract(参考訳): 高度なテストタイムコンピューティング戦略は推論モデルのスケーリングには不可欠であるが、その効果はモデルの貧弱な自己評価に支えられている。
本稿では,強化学習(GRPO)を用いて学習したペアワイズ説明検証手法を提案する。
我々の検証器は、ベスト・オブ・nやセルフ・リフレクションのようなテスト時間戦略の精度と効率を向上させる。
重要なことは、両方の候補ソリューションが全く正しくない場合や、多数決のような標準メソッドが失敗する場合など、障害モードの特定に長けている。
関連論文リスト
- Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Rationale-Aware Answer Verification by Pairwise Self-Evaluation [11.763229353978321]
信頼性のある検証器の訓練には,最終回答の正しさに加えて,有理数の有効性の確保が必要であることを示す。
本結果から, 信頼性検証には, 正解の正確性に加えて, 有理数の有効性の確保が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-10-07T08:53:00Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - V-STaR: Training Verifiers for Self-Taught Reasoners [71.53113558733227]
V-STaR はモデル生成解の正しさを判断する DPO を用いて検証器を訓練する。
複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られる。
論文 参考訳(メタデータ) (2024-02-09T15:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。