論文の概要: Scaling Agentic Verifier for Competitive Coding
- arxiv url: http://arxiv.org/abs/2602.04254v1
- Date: Wed, 04 Feb 2026 06:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.403183
- Title: Scaling Agentic Verifier for Competitive Coding
- Title(参考訳): 競合符号化のためのスケーリングエージェント検証器
- Authors: Zeyao Ma, Jing Zhang, Xiaokang Zhang, Jiaxi Yang, Zongmeng Zhang, Jiajun Zhang, Yuheng Jing, Lei Zhang, Hao Zheng, Wenting Zhao, Junyang Lin, Binyuan Hui,
- Abstract要約: 大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
- 参考スコア(独自算出の注目度): 66.11758166379092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong coding capabilities but still struggle to solve competitive programming problems correctly in a single attempt. Execution-based re-ranking offers a promising test-time scaling strategy, yet existing methods are constrained by either difficult test case generation or inefficient random input sampling. To address this limitation, we propose Agentic Verifier, an execution-based agent that actively reasons about program behaviors and searches for highly discriminative test inputs that expose behavioral discrepancies among candidate solutions. Through multi-turn interaction with code execution environments, the verifier iteratively refines the candidate input generator and produces targeted counterexamples rather than blindly sampling inputs. We train the verifier to acquire this discriminative input generation capability via a scalable pipeline combining large-scale data synthesis, rejection fine-tuning, and agentic reinforcement learning. Extensive experiments across five competitive programming benchmarks demonstrate consistent improvements over strong execution-based baselines, achieving up to +10-15% absolute gains in Best@K accuracy. Further analysis reveals clear test-time scaling behavior and highlights the verifier's broader potential beyond reranking.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
この制限に対処するために,プログラムの動作を積極的に理由づける実行ベースエージェントであるエージェント検証(Agentic Verifier)を提案する。
コード実行環境とのマルチターンインタラクションにより、検証者は、候補入力生成器を反復的に洗練し、盲目的の入力ではなく、ターゲットの反例を生成する。
我々は、大規模データ合成、拒否微調整、エージェント強化学習を組み合わせたスケーラブルなパイプラインを用いて、この識別入力生成能力を取得するように、検証器を訓練する。
5つの競合プログラミングベンチマークにわたる大規模な実験は、強い実行ベースのベースラインよりも一貫した改善を示し、Best@Kの精度で最大10~15%の絶対的な向上を達成した。
さらなる分析では、テスト時のスケーリングの振る舞いを明確に示し、検証者のさらなる可能性を強調している。
関連論文リスト
- BOSQTGEN: Breaking the Sound Barrier in Test Generation [3.052470294814771]
本稿では,新しいブラックボックスとAPIテスト生成ツールであるBOSQTGENを紹介する。
BOSQTGENは、API仕様をプリミティブに分解するための新しいアプローチ、LLMを使用してコヒーレントなインタラクションを提案し、これらの値を効率的にサンプリングするためにテストを採用する。
結果として得られたBOSQTGENシステムは、ベンチマークで平均82%のコードカバレッジを達成するが、しばしば以前の最先端システムよりも20%以上増加する。
論文 参考訳(メタデータ) (2025-10-22T17:11:30Z) - Budget-aware Test-time Scaling via Discriminative Verification [29.169164125933538]
テスト時間のスケーリングは、複雑な推論タスクにおいて、大きな言語モデルのパフォーマンスを高めるための強力な戦略です。
この作業では、焦点をより予算対応のパラダイム、差別的検証にシフトします。
固定された計算予算の下では、このハイブリッドアプローチは最先端の生成検証をかなりの差で上回る。
論文 参考訳(メタデータ) (2025-10-16T17:30:02Z) - Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。
自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。
このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文 参考訳(メタデータ) (2025-03-04T19:17:36Z) - Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation [27.484259938667776]
大規模言語モデルはコード生成に優れていますが、推論を必要とする複雑なプログラミングタスクに苦労します。
本稿では,実行可能検証を活用することで,プロセスと結果の監視を統一するアウトカム・リフィニング・プロセス・スーパービジョンを紹介する。
5つのモデルと3つのベンチマークによる実験では、26.9%の精度でコード効率が42.2%向上した。
論文 参考訳(メタデータ) (2024-12-19T17:59:42Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Generating and Detecting True Ambiguity: A Forgotten Danger in DNN
Supervision Testing [8.210473195536077]
本稿では,Deep Neural Networks (DNN) テストのための不明瞭な入力を生成する新しい手法を提案する。
特に,画像分類問題に対するあいまいなサンプルを生成するために,AmbiGuessを提案する。
真のあいまいさを検出するのに最も適した人は、無効、アウト・オブ・ディストリビューション、逆入力および逆逆入力において、より悪い結果が得られます。
論文 参考訳(メタデータ) (2022-07-21T14:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。