論文の概要: Calibrated Reasoning: An Explanatory Verifier for Dynamic and Efficient Problem-Solving
- arxiv url: http://arxiv.org/abs/2509.19681v1
- Date: Wed, 24 Sep 2025 01:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.656598
- Title: Calibrated Reasoning: An Explanatory Verifier for Dynamic and Efficient Problem-Solving
- Title(参考訳): Calibrated Reasoning: 動的かつ効率的な問題解決のための説明検証器
- Authors: Anisha Garg, Engin Tekin, Yash More, David Bick, Nishit Neema, Ganesh Venkatesh,
- Abstract要約: そこで本稿では,評価スコアと関連する自然言語推論値を生成するペアワイズ説明検証手法を提案する。
我々の検証器は、ベスト・オブ・nやセルフ・リフレクションのようなテスト時間戦略の精度と効率を向上させる。
- 参考スコア(独自算出の注目度): 2.357104785442987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced test-time computing strategies are essential for scaling reasoning models, but their effectiveness is capped by the models' poor self-evaluation. We propose a pairwise Explanatory Verifier, trained via reinforcement learning (GRPO), that produces calibrated confidence scores and associated natural language reasoning for generated solutions. Our verifier improves the accuracy and efficiency of test-time strategies like best-of-n and self-reflection. Crucially, it excels at identifying challenging failure modes, such as when both candidate solutions are identically incorrect, succeeding where standard methods like majority voting fail.
- Abstract(参考訳): 高度なテストタイムコンピューティング戦略は推論モデルのスケーリングには不可欠であるが、その効果はモデルの貧弱な自己評価に支えられている。
本稿では,強化学習(GRPO)を用いて学習したペアワイズ説明検証手法を提案する。
我々の検証器は、ベスト・オブ・nやセルフ・リフレクションのようなテスト時間戦略の精度と効率を向上させる。
重要なことは、両方の候補ソリューションが全く正しくない場合や、多数決のような標準メソッドが失敗する場合など、障害モードの特定に長けている。
関連論文リスト
- Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance [86.46794021499511]
戦略利用と戦略実行可能性の間には、これまで未定のギャップがある。
SSR(Selective Strategy Retrieval)は,実行可能性を明確にモデル化するテストタイムフレームワークである。
SSRは、直接解決、文脈内学習、単一ソースガイダンスよりも信頼性が高く一貫した改善をもたらす。
論文 参考訳(メタデータ) (2026-02-26T03:34:23Z) - Scaling Generative Verifiers For Natural Language Mathematical Proof Verification And Selection [42.21636315733425]
大規模言語モデルは、最終解答問題において顕著な成功を収めた。
しかし、これらのソリューションの根底にある理由はしばしば欠陥がある。
モデル性能のより信頼性の高い尺度を得るために,証明ベースと最終回答推論の両方を評価した。
論文 参考訳(メタデータ) (2025-11-17T06:25:35Z) - Stabilizing Reinforcement Learning for Honesty Alignment in Language Models on Deductive Reasoning [27.42733470720954]
本研究では,地上の真実軌道をロールアウトに注入し,早期の訓練崩壊を防ぐ強化学習手法を提案する。
その結果,本手法は学習を安定させ,全体の推論性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-11-12T11:34:19Z) - Learning-Based Testing for Deep Learning: Enhancing Model Robustness with Adversarial Input Prioritization [0.0]
このプロジェクトはディープニューラルネットワーク(DNN)における障害検出とモデルロバスト性の向上を目的としている。
本手法は, アーキテクチャ固有の特徴や形式的検証に頼ることなく, モデル欠陥を暴露する確率の高い逆入力のサブセットを選択する。
テストの置換を効率的に組織することにより、さまざまなデータセット、モデルアーキテクチャ、および敵攻撃テクニックで、潜在的なすべての障害を著しく高速に発見する。
論文 参考訳(メタデータ) (2025-09-28T16:31:30Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Rationale-Aware Answer Verification by Pairwise Self-Evaluation [11.763229353978321]
信頼性のある検証器の訓練には,最終回答の正しさに加えて,有理数の有効性の確保が必要であることを示す。
本結果から, 信頼性検証には, 正解の正確性に加えて, 有理数の有効性の確保が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-10-07T08:53:00Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - V-STaR: Training Verifiers for Self-Taught Reasoners [71.53113558733227]
V-STaR はモデル生成解の正しさを判断する DPO を用いて検証器を訓練する。
複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られる。
論文 参考訳(メタデータ) (2024-02-09T15:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。