論文の概要: Parallel Test-Time Scaling with Multi-Sequence Verifiers
- arxiv url: http://arxiv.org/abs/2603.03417v1
- Date: Tue, 03 Mar 2026 18:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.048898
- Title: Parallel Test-Time Scaling with Multi-Sequence Verifiers
- Title(参考訳): 多列検証器を用いた並列テスト時間スケーリング
- Authors: Yegon Kim, Seungyoo Lee, Chaeyun Jang, Hyungi Lee, Juho Lee,
- Abstract要約: 並列テストタイムスケーリングは、大規模な言語モデルのパフォーマンスを改善するための強力なテクニックである。
候補プールから正しいソリューションを正確に選択することと、多くの完全なソリューションを生成することによる高い推論レイテンシである。
我々は,全ての候補解を共同処理し,それらの相互作用をモデル化する最初の検証器であるMulti-Sequence Verifier (MSV)を紹介する。
- 参考スコア(独自算出の注目度): 23.363130292302483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel test-time scaling, which generates multiple candidate solutions for a single problem, is a powerful technique for improving large language model performance. However, it is hindered by two key bottlenecks: accurately selecting the correct solution from the candidate pool, and the high inference latency from generating many full solutions. We argue that both challenges are fundamentally linked to verifier calibration. A well-calibrated verifier not only improves answer selection, but also enables early-stopping strategies to reduce latency. However, existing verifiers are limited as they score each candidate in isolation, overlooking rich contextual information across the set of candidates. To address this, we introduce the Multi-Sequence Verifier (MSV), the first verifier designed to jointly process all candidate solutions and model their interactions. MSV achieves improved calibration, which directly enhances best-of-N selection performance. We further introduce a streaming MSV variant that empowers a novel early-stopping framework. Our novel framework fully leverages parallel decoding, which contrasts with the existing multi-sequence early exit works that decode sequences one by one and thus incur significant latency. In this novel setting, MSV can achieve the same target accuracy with around half the latency that would be required with its counterpart that scores each solution in isolation.
- Abstract(参考訳): 並列テスト時間スケーリングは、一つの問題に対して複数の候補解を生成するが、大きな言語モデルの性能を改善するための強力な技術である。
しかし、候補プールから正しい解を正確に選択することと、多くの完全な解を生成することによる高い推論遅延という2つの主要なボトルネックによって妨げられている。
両課題は検証器の校正と根本的に関連していると論じる。
よく校正された検証器は、回答の選択を改良するだけでなく、早期停止戦略によってレイテンシを低減できる。
しかし、既存の検証は、各候補を個別にスコアし、候補の集合全体にわたってリッチな文脈情報を見渡すことで制限されている。
そこで我々は,全ての候補解を共同処理し,それらの相互作用をモデル化する最初の検証器であるMulti-Sequence Verifier (MSV)を導入する。
MSVはキャリブレーションが向上し、N選択性能が向上する。
さらに、新しいアーリーストッピングフレームワークを実現するストリーミングMSVも導入する。
我々の新しいフレームワークは並列デコードを完全に活用しており、既存の複数シーケンスの早期終了処理とは対照的に、シーケンスを1つずつデコードし、結果として大きな遅延を発生させる。
この新しい設定では、MSVは同じターゲット精度を、各ソリューションを独立してスコアするそのソリューションで必要とされる約半分のレイテンシで達成することができる。
関連論文リスト
- $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文 参考訳(メタデータ) (2026-03-04T17:22:16Z) - One-Token Verification for Reasoning Correctness Estimation [31.590898058475464]
ワンツーケン検証(One-Token Verification、OTV)は、生成中の1つの前方通過における正当性を推定する計算手法である。
OTVは、既存のバリデーションを一貫して上回り、正当性誘導早期終了によりトークン使用量を最大90%削減する。
論文 参考訳(メタデータ) (2026-03-01T10:09:58Z) - Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - ATTS: Asynchronous Test-Time Scaling via Conformal Prediction [112.54016379556073]
大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
論文 参考訳(メタデータ) (2025-09-18T16:55:09Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - CodeMonkeys: Scaling Test-Time Compute for Software Engineering [45.84513832258217]
テスト時間計算のスケーリングは、LLM機能を改善するための有望な軸である。
ここでは、SWE-benchデータセットから現実のGitHub問題を解決するという文脈で、この問題について検討する。
CodeMonkeysという名前の私たちのシステムは、ドラフト編集と同時にテストスクリプトを共同で生成して実行することで、モデルを反復的に編集することができる。
論文 参考訳(メタデータ) (2025-01-24T18:58:40Z) - Learning Multiple Initial Solutions to Optimization Problems [52.9380464408756]
厳密なランタイム制約の下で、同様の最適化問題を順次解決することは、多くのアプリケーションにとって不可欠である。
本稿では,問題インスタンスを定義するパラメータが与えられた初期解を多種多様に予測する学習を提案する。
提案手法は,すべての評価設定において有意かつ一貫した改善を実現し,必要な初期解の数に応じて効率よくスケールできることを実証した。
論文 参考訳(メタデータ) (2024-11-04T15:17:19Z) - V-STaR: Training Verifiers for Self-Taught Reasoners [71.53113558733227]
V-STaR はモデル生成解の正しさを判断する DPO を用いて検証器を訓練する。
複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られる。
論文 参考訳(メタデータ) (2024-02-09T15:02:56Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。