BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution
Abstractの概要
BenchEvolverは、まず参照ソリューションを変異させ、次にそれに対応する問題文とテストを導出することで、既存のコーディングタスクをより困難なバリアントに変換する、ソリューション中心の進化フレームワークである。この手法は、提案器、ベンチマーク特有の検証、ターゲットモデルに対する経験的な難易度測定、およびメモリ誘導型探索を組み合わせることで、採用されたタスクが実行可能であり、かつ真により困難であることを保証する。LiveCodeBenchおよびSciCodeにおいて、本論文は採用されたタスクの事後的な有効性が高く、タスクを生成した同一モデルを含め、モデルのパス率が一貫して低下したことを報告している。また、著者らはこれらの進化したタスクを用いて、最先端コーディングモデル向けの91問からなるベンチマーク「LiveCodeBench-Plus」を構築し、モデルの自己改善のための強化学習シグナルを提供している。
新規性
本論文の主な新規性は、まず問題文を生成するのではなく、実行可能なセマンティクスに合成の基盤を置く、ソリューション優先のタスク進化パイプラインにある。また、経験的なモデルの失敗によってタスクが選択され、後で同じモデルファミリーの訓練シグナルとして再利用できる、クローズドループの自己挑戦プロセスとしてベンチマークの進化を構成している点も新しい。
成果
LiveCodeBench-Plusにおいて、最先端モデルのPass@1は27.5%から62.6%の範囲となり、ベンチマーク飽和後のモデル識別力が回復したことを示している。また、元の難易度が高いデータ分割では、平均Pass@1がシードタスクの87.0%から進化後タスクの45.7%へと低下した。このフレームワークはSciCodeでもより難しく妥当なタスクを生成し、強化学習(RL)の訓練結果を向上させる。gpt-oss-20bの場合、シード+進化タスクによる訓練はシード単独の訓練を上回り、LCB v6 Hardで+8.7ポイント、LCB-Pro Easyで+8.3ポイントの向上をもたらすとともに、進化後タスクによる訓練は独立して進化した別のベンチマークにも転移する。
論文の注目点
- BenchEvolverは、問題文とテストを作成する前に参照ソリューションを進化させ、その後ベンチマーク固有の検証、経験的な難易度チェック、およびメモリ誘導型探索を通じて候補をフィルタリングする。
- この手法は、競技プログラミングおよび科学技術コーディングのベンチマーク全体で、有効かつ実質的に難易度の高いタスクを生成し、その結果得られたLiveCodeBench-Plusベンチマークは、強力なコーディングモデル間に意味のある性能差を維持する。
- 進化したタスクは、より困難な評価項目であるだけでなく、タスクを生成した同じモデルファミリーのホールドアウトされたコーディング性能を向上させる、再利用可能な強化学習の訓練シグナルとしても機能する。