論文の概要: ROC-n-reroll: How verifier imperfection affects test-time scaling
- arxiv url: http://arxiv.org/abs/2507.12399v1
- Date: Wed, 16 Jul 2025 16:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.476946
- Title: ROC-n-reroll: How verifier imperfection affects test-time scaling
- Title(参考訳): ROC-n-Reroll:検証の不完全性がテスト時間スケーリングに与える影響
- Authors: Florian E. Dorner, Yatong Chen, André F. Cruz, Fanny Yang,
- Abstract要約: テストタイムスケーリングは、推論中に追加の計算を活用することで、言語モデルのパフォーマンスを向上させることを目的としている。
検証の不完全性がパフォーマンスにどのように影響するかという理論的理解はほとんどない。
検証器のROC曲線の幾何によって,メソッドのインスタンスレベルの精度が正確に評価されているかを証明する。
- 参考スコア(独自算出の注目度): 10.949594516629652
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Test-time scaling aims to improve language model performance by leveraging additional compute during inference. While many works have empirically studied techniques like Best-of-N (BoN) and rejection sampling that make use of a verifier to enable test-time scaling, there is little theoretical understanding of how verifier imperfection affects performance. In this work, we address this gap. Specifically, we prove how instance-level accuracy of these methods is precisely characterized by the geometry of the verifier's ROC curve. Interestingly, while scaling is determined by the local geometry of the ROC curve for rejection sampling, it depends on global properties of the ROC curve for BoN. As a consequence when the ROC curve is unknown, it is impossible to extrapolate the performance of rejection sampling based on the low-compute regime. Furthermore, while rejection sampling outperforms BoN for fixed compute, in the infinite-compute limit both methods converge to the same level of accuracy, determined by the slope of the ROC curve near the origin. Our theoretical results are confirmed by experiments on GSM8K using different versions of Llama and Qwen to generate and verify solutions.
- Abstract(参考訳): テストタイムスケーリングは、推論中に追加の計算を活用することで、言語モデルのパフォーマンスを向上させることを目的としている。
Best-of-N (BoN) やリジェクションサンプリング(英語版)のような試験時間スケーリングを可能にする検証器を用いた手法を実証的に研究してきた研究は多いが、検証器の不完全性がパフォーマンスにどのように影響するかに関する理論的理解はほとんどない。
この作業では、このギャップに対処します。
具体的には、これらの手法のインスタンスレベルの精度が、検証器のROC曲線の幾何によって正確に評価されているかを示す。
興味深いことに、スケーリングはリジェクションサンプリングのためのROC曲線の局所幾何学によって決定されるが、これはBoNのROC曲線の大域的な性質に依存する。
その結果、ROC曲線が未知の場合には、低コンプット状態に基づいてリジェクションサンプリングの性能を推定することは不可能である。
さらに、リジェクションサンプリングは、固定計算のBoNよりも優れているが、無限計算の制限では、両方の手法は同じレベルの精度に収束し、原点付近のROC曲線の傾きによって決定される。
Llama と Qwen の異なるバージョンを用いて GSM8K 上で実験を行い,解の生成と検証を行った。
関連論文リスト
- On the Wasserstein Convergence and Straightness of Rectified Flow [54.580605276017096]
Rectified Flow (RF) は、ノイズからデータへの直流軌跡の学習を目的とした生成モデルである。
RFのサンプリング分布とターゲット分布とのワッサーシュタイン距離に関する理論的解析を行った。
本稿では,従来の経験的知見と一致した1-RFの特異性と直線性を保証する一般的な条件について述べる。
論文 参考訳(メタデータ) (2024-10-19T02:36:11Z) - The curious case of the test set AUROC [0.5242869847419834]
テストROC曲線のみから得られるスコアを考えると、モデルがどのように機能するか、その一般化する能力について、より狭い洞察しか得られない、と我々は論じる。
論文 参考訳(メタデータ) (2023-12-19T17:40:58Z) - The Lipschitz-Variance-Margin Tradeoff for Enhanced Randomized Smoothing [85.85160896547698]
ディープニューラルネットワークの現実的な応用は、ノイズの多い入力や敵攻撃に直面した場合、その不安定な予測によって妨げられる。
入力にノイズ注入を頼りに、認証された半径を持つ効率的な分類器を設計する方法を示す。
新たな認証手法により、ランダムな平滑化による事前学習モデルの使用が可能となり、ゼロショット方式で現在の認証半径を効果的に改善できる。
論文 参考訳(メタデータ) (2023-09-28T22:41:47Z) - Neural Operator Variational Inference based on Regularized Stein
Discrepancy for Deep Gaussian Processes [23.87733307119697]
本稿では,深いガウス過程に対するニューラル演算子変分推論(NOVI)を提案する。
NOVIは、ニューラルジェネレータを使用してサンプリング装置を取得し、生成された分布と真の後部の間のL2空間における正規化スタインの離散性を最小化する。
提案手法が提案するバイアスは定数で発散を乗算することで制御可能であることを示す。
論文 参考訳(メタデータ) (2023-09-22T06:56:35Z) - Collapsed Inference for Bayesian Deep Learning [36.1725075097107]
本稿では,崩壊サンプルを用いたベイズモデル平均化を行う新しい崩壊予測手法を提案する。
崩壊したサンプルは、近似後部から引き出された数え切れないほど多くのモデルを表す。
提案手法は, スケーラビリティと精度のバランスをとる。
論文 参考訳(メタデータ) (2023-06-16T08:34:42Z) - Learning for Transductive Threshold Calibration in Open-World Recognition [83.35320675679122]
グラフニューラルネットワークを用いた高剛性と適応性を有するトランスダクティブしきい値キャリブレーション法であるOpenGCNを導入する。
オープンワールドの視覚認識ベンチマークにおける実験は、オープンワールドのしきい値校正のための既存のポストホック校正方法よりもOpenGCNの方が優れていることを検証する。
論文 参考訳(メタデータ) (2023-05-19T23:52:48Z) - Neural Inference of Gaussian Processes for Time Series Data of Quasars [72.79083473275742]
クエーサースペクトルを完全に記述できる新しいモデルを提案する。
また、$textitNeural Inference$というガウス的プロセスパラメータの推論の新しいメソッドも導入しています。
CDRWモデルとNeural Inferenceの組み合わせはベースラインのDRWとMLEを大きく上回っている。
論文 参考訳(メタデータ) (2022-11-17T13:01:26Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - The $f$-divergence and Loss Functions in ROC Curve [2.9823962001574182]
2つのデータ分布とテストスコア関数が与えられたとき、受信者動作特性(ROC)曲線は、そのようなスコアがいかに2つの分布を分離するかを示す。
ROC曲線は2つの分布の相違の尺度として使用できるか?
本稿では, テストスコアとしてデータ確率比を用いると, ROC曲線の弧長が2つのデータ分布の差を測る新しい$f$-divergenceを生じることを示す。
論文 参考訳(メタデータ) (2021-10-18T23:12:35Z) - Calibration of Neural Networks using Splines [51.42640515410253]
キャリブレーション誤差の測定は、2つの経験的分布を比較します。
古典的コルモゴロフ・スミルノフ統計テスト(KS)にインスパイアされたビンニングフリーキャリブレーション尺度を導入する。
提案手法は,KS誤差に対する既存の手法と,他の一般的なキャリブレーション手法とを一貫して比較する。
論文 参考訳(メタデータ) (2020-06-23T07:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。