論文の概要: Verification Limits Code LLM Training
- arxiv url: http://arxiv.org/abs/2509.20837v1
- Date: Thu, 25 Sep 2025 07:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.750751
- Title: Verification Limits Code LLM Training
- Title(参考訳): コードLLMトレーニングの検証限界
- Authors: Srishti Gureja, Elena Tommasone, Jingyi He, Sara Hooker, Matthias Gallé, Marzieh Fadaee,
- Abstract要約: コード生成のための大規模言語モデルは、問題解と検証テストの両方がモデルによって生成される合成データにますます依存している。
本研究では,検証設計と戦略がモデル性能に与える影響について検討する。
- 参考スコア(独自算出の注目度): 23.67882363039948
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models for code generation increasingly rely on synthetic data, where both problem solutions and verification tests are generated by models. While this enables scalable data creation, it introduces a previously unexplored bottleneck: the verification ceiling, in which the quality and diversity of training data are fundamentally constrained by the capabilities of synthetic verifiers. In this work, we systematically study how verification design and strategies influence model performance. We investigate (i) what we verify by analyzing the impact of test complexity and quantity: richer test suites improve code generation capabilities (on average +3 pass@1), while quantity alone yields diminishing returns, (ii) how we verify by exploring relaxed pass thresholds: rigid 100% pass criteria can be overly restrictive. By allowing for relaxed thresholds or incorporating LLM-based soft verification, we can recover valuable training data, leading to a 2-4 point improvement in pass@1 performance. However, this benefit is contingent upon the strength and diversity of the test cases used, and (iii) why verification remains necessary through controlled comparisons of formally correct versus incorrect solutions and human evaluation: retaining diverse correct solutions per problem yields consistent generalization gains. Our results show that Verification as currently practiced is too rigid, filtering out valuable diversity. But it cannot be discarded, only recalibrated. By combining calibrated verification with diverse, challenging problem-solution pairs, we outline a path to break the verification ceiling and unlock stronger code generation models.
- Abstract(参考訳): コード生成のための大規模言語モデルは、問題解と検証テストの両方がモデルによって生成される合成データにますます依存している。
これはスケーラブルなデータ作成を可能にするが、以前は探索されなかったボトルネック、すなわち、トレーニングデータの質と多様性が、合成検証の能力によって根本的に制約される検証天井を導入する。
本研究では,検証設計と戦略がモデル性能に与える影響を系統的に研究する。
我々は調査する
i) テストの複雑さと量の影響を分析して検証したもの: よりリッチなテストスイートはコード生成能力(平均+3pass@1)を改善します。
(II) 緩和パス閾値の探索による検証方法: 厳密な100%パス基準は過度に制限される。
緩和しきい値の取得やLLMベースのソフト検証の導入によって,貴重なトレーニングデータを復元することが可能となり,pass@1のパフォーマンスが2-4ポイント向上した。
しかし、この利点は、使用するテストケースの強度と多様性に左右される。
3) 形式的正解と不正解の比較と人的評価の制御による検証がなぜ必要か: 問題ごとの多様な正解を維持することは、一貫した一般化ゲインをもたらす。
我々の結果は、現在行われている検証は厳格すぎることを示し、価値ある多様性をフィルタリングしている。
しかし、それは捨てられず、再校正されるのみである。
校正された検証と多様な課題解決ペアを組み合わせることで、検証天井を破り、より強力なコード生成モデルを解き放つ方法を概説する。
関連論文リスト
- Variation in Verification: Understanding Verification Dynamics in Large Language Models [43.829778623942275]
本稿では、連鎖推論を生成して検証を行い、次いで二項判定を行う生成検証器について検討する。
実験の結果,有効性に関する3つの重要な知見が得られた。
論文 参考訳(メタデータ) (2025-09-22T16:36:56Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Scaling Flaws of Verifier-Guided Search in Mathematical Reasoning [16.824343439487617]
大規模言語モデル(LLM)は、推論時間スケーリングがパフォーマンス改善のための有望な戦略として現れている、多段階推論に苦しむ。
検証者誘導探索は、有効な推論経路を選択して優先順位付けすることにより、サンプリングサイズが制限されたときに繰り返しサンプリングより優れる。
サンプルサイズが大きくなるにつれて、検証者誘導探索は利点を減らし、最終的には繰り返しサンプリングを過小評価する。
論文 参考訳(メタデータ) (2025-02-01T02:08:49Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。