論文の概要: Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier
- arxiv url: http://arxiv.org/abs/2505.11966v1
- Date: Sat, 17 May 2025 11:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.963814
- Title: Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier
- Title(参考訳): Solve-Detect-Verify:フレキシブル生成検証による推論時間スケーリング
- Authors: Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Kezhi Li, Qiang Xu,
- Abstract要約: 複雑なタスクを推論する大規模言語モデル(LLM)は、本質的には解の精度と計算効率のトレードオフを伴う。
本稿では,高速かつ信頼性の高い高速思考と巧妙なスロー思考の両立を図った新しい生成検証器FlexiVeを紹介する。
実験によると、FlexiVeはProcessBenchの推論トレース内のエラーをピンポイントする精度が優れている。
- 参考スコア(独自算出の注目度): 13.980380294971093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) reasoning for complex tasks inherently involves a trade-off between solution accuracy and computational efficiency. The subsequent step of verification, while intended to improve performance, further complicates this landscape by introducing its own challenging trade-off: sophisticated Generative Reward Models (GenRMs) can be computationally prohibitive if naively integrated with LLMs at test-time, while simpler, faster methods may lack reliability. To overcome these challenges, we introduce FlexiVe, a novel generative verifier that flexibly balances computational resources between rapid, reliable fast thinking and meticulous slow thinking using a Flexible Allocation of Verification Budget strategy. We further propose the Solve-Detect-Verify pipeline, an efficient inference-time scaling framework that intelligently integrates FlexiVe, proactively identifying solution completion points to trigger targeted verification and provide focused solver feedback. Experiments show FlexiVe achieves superior accuracy in pinpointing errors within reasoning traces on ProcessBench. Furthermore, on challenging mathematical reasoning benchmarks (AIME 2024, AIME 2025, and CNMO), our full approach outperforms baselines like self-consistency in reasoning accuracy and inference efficiency. Our system offers a scalable and effective solution to enhance LLM reasoning at test time.
- Abstract(参考訳): 複雑なタスクを推論する大規模言語モデル(LLM)は、本質的には解の精度と計算効率のトレードオフを伴う。
高度なジェネレーティブ・リワード・モデル (genRMs) は、テスト時に LLM と直感的に統合した場合、計算的に禁止されるが、よりシンプルで高速な手法は信頼性を欠く可能性がある。
これらの課題を克服するために、フレキシブル・アロケーション・オブ・バリデーション・バッジ戦略を用いて、高速で信頼性の高い高速思考と巧妙に遅い思考の計算資源を柔軟にバランスさせる新しい生成検証器FlexiVeを紹介する。
さらに、FlexiVeをインテリジェントに統合する効率的な推論時間スケーリングフレームワークであるSolve-Detect-Verifyパイプラインを提案し、ターゲット検証のトリガーとしてソリューション完了点を積極的に識別し、集中したソルバフィードバックを提供する。
実験によると、FlexiVeはProcessBenchの推論トレース内のエラーをピンポイントする精度が優れている。
さらに、挑戦的な数学的推論ベンチマーク(AIME 2024, AIME 2025, CNMO)では、完全なアプローチは、推論精度や推論効率において、自己整合性などのベースラインよりも優れています。
我々のシステムは、テスト時にLSM推論を強化するスケーラブルで効果的なソリューションを提供する。
関連論文リスト
- Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。
既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。
高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。
FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。
FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文 参考訳(メタデータ) (2024-12-12T09:01:18Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。