論文の概要: Budget-aware Test-time Scaling via Discriminative Verification
- arxiv url: http://arxiv.org/abs/2510.14913v1
- Date: Thu, 16 Oct 2025 17:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.977775
- Title: Budget-aware Test-time Scaling via Discriminative Verification
- Title(参考訳): 差別的検証による予算対応テストタイムスケーリング
- Authors: Kyle Montgomery, Sijun Tan, Yuqi Chen, Siyuan Zhuang, Tianjun Zhang, Raluca Ada Popa, Chenguang Wang,
- Abstract要約: テスト時間のスケーリングは、複雑な推論タスクにおいて、大きな言語モデルのパフォーマンスを高めるための強力な戦略です。
この作業では、焦点をより予算対応のパラダイム、差別的検証にシフトします。
固定された計算予算の下では、このハイブリッドアプローチは最先端の生成検証をかなりの差で上回る。
- 参考スコア(独自算出の注目度): 29.169164125933538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling is a powerful strategy for boosting the performance of large language models on complex reasoning tasks. While state-of-the-art approaches often employ generative verifiers to select the best solution from a pool of candidates, this method incurs prohibitive computational costs, limiting its practicality. In this work, we shift the focus to a more budget-aware paradigm: discriminative verification. We conduct a thorough empirical analysis and demonstrate that while discriminative verifiers may underperform in isolation, combining them with self-consistency in a hybrid approach creates a powerful and efficient test-time scaling mechanism. Notably, under a fixed compute budget, this hybrid approach surpasses state-of-the-art generative verification by a significant margin: achieving up to 15.3\% higher accuracy on AIME2025. Our findings establish that for practical, real-world applications, budget-aware scaling with discriminative verifiers is not only a "free" upgrade over self-consistency, but also a more effective and efficient alternative to costly generative techniques. Code is available at https://github.com/wang-research-lab/verification.
- Abstract(参考訳): テスト時間のスケーリングは、複雑な推論タスクにおいて、大きな言語モデルのパフォーマンスを高めるための強力な戦略です。
最先端の手法では、候補のプールから最良の解を選択するために生成検証器を用いることが多いが、この方法は禁止的な計算コストを発生させ、その実用性を制限する。
この作業では、焦点をより予算対応のパラダイム、差別的検証にシフトします。
我々は、徹底的な経験的分析を行い、差別的検証器は単独では性能が劣るが、ハイブリッドアプローチで自己整合性と組み合わせることで、強力で効率的なテスト時間スケーリング機構を創出することを示した。
特に、固定された計算予算の下では、このハイブリッドアプローチは最先端の生成検証をはるかに上回り、AIME2025で最大15.3倍の精度を達成している。
実世界の応用においては, 差別的検証による予算対応スケーリングは, 自己整合性に対する「自由」なアップグレードであるだけでなく, コストのかかる生成技術に代わる, より効率的かつ効率的な代替手段であることを実証した。
コードはhttps://github.com/wang-research-lab/verification.comで公開されている。
関連論文リスト
- Latency and Token-Aware Test-Time Compute [3.573250939705335]
推測時間スケーリングは、複数の候補応答を生成し、それらの中から選択することで、大きな言語モデル(LLM)の性能を向上させることができる。
動的計算アロケーションとメソッド選択の問題として,推論時間スケーリングを定式化する。
我々のフレームワークはトークンコストとウォールクロックのレイテンシの両方を明示的に組み込んでおり、後者はユーザエクスペリエンス、特にエージェントモデルにとって重要なものです。
論文 参考訳(メタデータ) (2025-09-11T21:35:19Z) - Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier [13.980380294971093]
複雑なタスクを推論する大規模言語モデル(LLM)は、本質的には解の精度と計算効率のトレードオフを伴う。
本稿では,高速かつ信頼性の高い高速思考と巧妙なスロー思考の両立を図った新しい生成検証器FlexiVeを紹介する。
実験によると、FlexiVeはProcessBenchの推論トレース内のエラーをピンポイントする精度が優れている。
論文 参考訳(メタデータ) (2025-05-17T11:41:44Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Automatically Adaptive Conformal Risk Control [49.95190019041905]
本稿では,テストサンプルの難易度に適応して,統計的リスクの近似的条件制御を実現する手法を提案する。
我々のフレームワークは、ユーザが提供するコンディショニングイベントに基づく従来のコンディショニングリスク制御を超えて、コンディショニングに適した関数クラスのアルゴリズム的、データ駆動決定を行う。
論文 参考訳(メタデータ) (2024-06-25T08:29:32Z) - Model Cascading for Code: A Cascaded Black-Box Multi-Model Framework for Cost-Efficient Code Completion with Self-Testing [20.445496441396028]
本稿では,モデルカスケーディングと推論時自己テストアルゴリズムを組み合わせた新しいフレームワークを提案する。
このアプローチでは,自己生成テストを活用して精度を高め,モデルのカスケード決定を評価する。
実験結果から, カスケード手法はコストを平均26%削減し, ベストケースでは最大70%削減できることがわかった。
論文 参考訳(メタデータ) (2024-05-24T16:20:04Z) - Securing Transactions: A Hybrid Dependable Ensemble Machine Learning
Model using IHT-LR and Grid Search [2.4374097382908477]
本稿では,複数のアルゴリズムをインテリジェントに組み合わせて不正識別を強化する,最先端のハイブリッドアンサンブル(ENS)機械学習(ML)モデルを提案する。
実験は,284,807件の取引からなる公開クレジットカードデータセットを用いて実施した。
提案したモデルは、99.66%、99.73%、98.56%、99.79%の精度で、それぞれDT、RF、KNN、ENSモデルに完全100%の精度を実現している。
論文 参考訳(メタデータ) (2024-02-22T09:01:42Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Budgeted Classification with Rejection: An Evolutionary Method with
Multiple Objectives [0.0]
予算付きシーケンシャル分類器(BSC)プロセスは、部分的特徴取得と評価ステップのシーケンスを通じて入力を行う。
これにより、不要な特徴取得を防止するための入力の効率的な評価が可能になる。
本稿では,信頼度に基づく拒否オプション付き逐次分類器を構築するための問題固有遺伝的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-01T22:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。