論文の概要: $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners
- arxiv url: http://arxiv.org/abs/2603.04304v1
- Date: Wed, 04 Mar 2026 17:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.422809
- Title: $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners
- Title(参考訳): $V_1$:並列共振器の生成と自己検証
- Authors: Harman Singh, Xiuyu Li, Kusha Sareen, Monishwaran Maheswaran, Sijun Tan, Xiaoxia Wu, Junxiong Wang, Alpay Ariyak, Qingyang Wu, Samir Khaki, Rishabh Tiwari, Long Lian, Yucheng Lu, Boyi Li, Alane Suhr, Ben Athiwaratkun, Kurt Keutzer,
- Abstract要約: $V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
- 参考スコア(独自算出の注目度): 69.66089681814013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling for complex reasoning tasks shows that leveraging inference-time compute, by methods such as independently sampling and aggregating multiple solutions, results in significantly better task outcomes. However, a critical bottleneck is verification: sampling is only effective if correct solutions can be reliably identified among candidates. While existing approaches typically evaluate candidates independently via scalar scoring, we demonstrate that models are substantially stronger at pairwise self-verification. Leveraging this insight, we introduce $V_1$, a framework that unifies generation and verification through efficient pairwise ranking. $V_1$ comprises two components: $V_1$-Infer, an uncertainty-guided algorithm using a tournament-based ranking that dynamically allocates self-verification compute to candidate pairs whose relative correctness is most uncertain; and $V_1$-PairRL, an RL framework that jointly trains a single model as both generator and pairwise self-verifier, ensuring the verifier adapts to the generator's evolving distribution. On code generation (LiveCodeBench, CodeContests, SWE-Bench) and math reasoning (AIME, HMMT) benchmarks, $V_1$-Infer improves Pass@1 by up to $10%$ over pointwise verification and outperforms recent test-time scaling methods while being significantly more efficient. Furthermore, $V_1$-PairRL achieves $7$--$9%$ test-time scaling gains over standard RL and pointwise joint training, and improves base Pass@1 by up to 8.7% over standard RL in a code-generation setting.
- Abstract(参考訳): 複雑な推論タスクに対するテスト時間スケーリングは、独立して複数のソリューションをサンプリングしたり集約したりすることで、推論時間計算を活用することにより、タスクの結果が大幅に向上することを示している。
しかし、重要なボトルネックは検証である:サンプリングは、正しい解が候補間で確実に特定できる場合にのみ有効である。
既存の手法は通常、スカラースコアリングによって候補を独立に評価するが、モデルがペアワイズ自己検証においてかなり強いことを実証する。
この知見を生かして、効率的なペアワイドランキングによる生成と検証を統一するフレームワークである$V_1$を導入する。
V_1$-Inferはトーナメントベースのランキングを用いた不確実性誘導アルゴリズムで、相対的正しさが最も不確実な候補ペアに対して動的に自己検証計算を割り当てる。
コード生成(LiveCodeBench、CodeContests、SWE-Bench)と数学推論(AIME、HMMT)ベンチマークでは、$V_1$-InferがPass@1をポイントワイドな検証で最大10%改善し、最近のテストタイムスケーリングメソッドよりもはるかに効率が良い。
さらに、$V_1$-PairRLは、標準RLとポイントワイドのジョイントトレーニングよりも7--9%$テストタイムスケーリングが向上し、コードジェネレーション設定で標準RLよりも最大8.7%向上する。
関連論文リスト
- CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - ADDQ: Adaptive Distributional Double Q-Learning [0.0]
Q$-valuesの推定におけるバイアス問題は、Q$-learningおよびアクター批判的手法の収束を遅くするよく知られた障害である。
本稿では,分布強化学習(DRL)アルゴリズム上に構築された簡易な実装手法を提案する。
論文 参考訳(メタデータ) (2025-06-24T10:09:26Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Sample Complexity and Representation Ability of Test-time Scaling Paradigms [91.34339030453425]
テスト時間スケーリングのパラダイムは、複雑なタスクにおいて、大きな言語モデル(LLM)の能力を向上した。
本稿では, 自己整合性, ベスト・オブ・n$, 自己補正など, 様々なテストタイム戦略のサンプル効率について検討する。
単一のTransformerアーキテクチャは、ユーザクエリに関連する特定のタスクを事前に知ることなく、複数のタスクを確実に解決することができる。
論文 参考訳(メタデータ) (2025-06-05T17:48:19Z) - Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers [57.95157497749428]
RL$V$は、LLMを推論器と生成検証器の両方として共同で訓練することにより、任意の値自由なRL法を増強する。
RL$V$は、並列サンプリングでMATHの精度を20%以上向上し、効率的なテスト時間計算のスケーリングを可能にする。
論文 参考訳(メタデータ) (2025-05-07T22:41:26Z) - Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。