FuguReport

BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution

著者 Yangzhen Wu, Aaron J. Li, Wenjie Ma, Li Cao, Ziheng Zhou, Mert Cemri, Shu Liu, Yuran Xiu, Chenxiao Yan, Haikun Zhao, Bin Yu, Ion Stoica, Dawn Song
所属 University of California, Berkeley / Tsinghua University
カテゴリ Method / Benchmarking / Synthesis of harder task variants, Application / Training Signal Design / Reusable signals from benchmark evolution, Evaluation / Model Evaluation / Frontier-level evaluation suite creation
ライセンス CC BY 4.0

Abstractの概要

BenchEvolverは、まず参照ソリューションを変異させ、次にそれに対応する問題文とテストを導出することで、既存のコーディングタスクをより困難なバリアントに変換する、ソリューション中心の進化フレームワークである。この手法は、提案器、ベンチマーク特有の検証、ターゲットモデルに対する経験的な難易度測定、およびメモリ誘導型探索を組み合わせることで、採用されたタスクが実行可能であり、かつ真により困難であることを保証する。LiveCodeBenchおよびSciCodeにおいて、本論文は採用されたタスクの事後的な有効性が高く、タスクを生成した同一モデルを含め、モデルのパス率が一貫して低下したことを報告している。また、著者らはこれらの進化したタスクを用いて、最先端コーディングモデル向けの91問からなるベンチマーク「LiveCodeBench-Plus」を構築し、モデルの自己改善のための強化学習シグナルを提供している。

新規性

本論文の主な新規性は、まず問題文を生成するのではなく、実行可能なセマンティクスに合成の基盤を置く、ソリューション優先のタスク進化パイプラインにある。また、経験的なモデルの失敗によってタスクが選択され、後で同じモデルファミリーの訓練シグナルとして再利用できる、クローズドループの自己挑戦プロセスとしてベンチマークの進化を構成している点も新しい。

成果

LiveCodeBench-Plusにおいて、最先端モデルのPass@1は27.5%から62.6%の範囲となり、ベンチマーク飽和後のモデル識別力が回復したことを示している。また、元の難易度が高いデータ分割では、平均Pass@1がシードタスクの87.0%から進化後タスクの45.7%へと低下した。このフレームワークはSciCodeでもより難しく妥当なタスクを生成し、強化学習(RL)の訓練結果を向上させる。gpt-oss-20bの場合、シード+進化タスクによる訓練はシード単独の訓練を上回り、LCB v6 Hardで+8.7ポイント、LCB-Pro Easyで+8.3ポイントの向上をもたらすとともに、進化後タスクによる訓練は独立して進化した別のベンチマークにも転移する。

論文の注目点

  1. BenchEvolverは、問題文とテストを作成する前に参照ソリューションを進化させ、その後ベンチマーク固有の検証、経験的な難易度チェック、およびメモリ誘導型探索を通じて候補をフィルタリングする。
  2. この手法は、競技プログラミングおよび科学技術コーディングのベンチマーク全体で、有効かつ実質的に難易度の高いタスクを生成し、その結果得られたLiveCodeBench-Plusベンチマークは、強力なコーディングモデル間に意味のある性能差を維持する。
  3. 進化したタスクは、より困難な評価項目であるだけでなく、タスクを生成した同じモデルファミリーのホールドアウトされたコーディング性能を向上させる、再利用可能な強化学習の訓練シグナルとしても機能する。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。