論文の概要: ClassEval-Pro: A Cross-Domain Benchmark for Class-Level Code Generation
- arxiv url: http://arxiv.org/abs/2604.26923v1
- Date: Wed, 29 Apr 2026 17:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.525416
- Title: ClassEval-Pro: A Cross-Domain Benchmark for Class-Level Code Generation
- Title(参考訳): ClassEval-Pro: クラスレベルのコード生成のためのクロスドメインベンチマーク
- Authors: Yeheng Chen, Chaoxiang Xie, Yuling Shi, Wenhao Zeng, Yongpan Wang, Hongyu Zhang, Xiaodong Gu,
- Abstract要約: ClassEval-Proは、11ドメインにまたがる300のクラスレベルのタスクのベンチマークである。
最高のモデルは45.6%のクラスレベルのPass@1しか達成せず、最強モデルと最弱モデルの間に17.7ポイントの差がある。
- 参考スコア(独自算出の注目度): 16.04915509466256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have achieved strong results on both function-level code synthesis and repository-level code modification, yet a capability that falls between these two extremes -- compositional code creation, i.e., building a complete, internally structured class from a specification -- remains underserved. Current evaluations are either confined to isolated functions or rely on manually curated class-level tasks that are expensive to scale and increasingly susceptible to data contamination. We introduce ClassEval-Pro, a benchmark of 300 class-level tasks spanning 11 domains, constructed through an automated three-stage pipeline that combines complexity enhancement, cross-domain class composition, and integration of real-world GitHub code contributed after January 2025. Every task is validated by an LLM Judge Ensemble and must pass test suites with over 90% line coverage. We evaluate five frontier LLMs under five generation strategies. The best model achieves only 45.6% class-level Pass@1, with a 17.7-point gap between the strongest and weakest models, confirming the benchmark's discriminative power. Strategy choice strongly interacts with model capability: structured approaches such as bottom-up improve weaker models by up to 9.4 percentage points, while compositional generation collapses to as low as 1.3%. Error analysis over 500 manually annotated failures reveals that logic errors (56.2%) and dependency errors (38.0%) dominate, identifying cross-method coordination as the core bottleneck.
- Abstract(参考訳): LLMは、関数レベルのコード合成とリポジトリレベルのコード修正の両方において強力な成果を上げていますが、これら2つの極端(つまり、仕様から完全に内部的に構造化されたクラスを構築すること)の間には、その能力は保たれています。
現在の評価は、独立した機能に限られるか、手動で計算されたクラスレベルのタスクに依存している。
私たちは、複雑性の強化、クロスドメインのクラス構成、2025年1月以降にコントリビュートされた実世界のGitHubコードの統合を組み合わせた、自動化された3段階パイプラインを通じて構築された、11のドメインにまたがる300のクラスレベルのタスクのベンチマークであるClassEval-Proを紹介した。
すべてのタスクはLLM Judge Ensembleによって検証され、90%以上のラインカバレッジを持つテストスイートをパスする必要があります。
5世代戦略による5つのフロンティアLSMの評価を行った。
最高のモデルでは、クラスレベルのPass@1が45.6%しか達成せず、最強モデルと最弱モデルの間に17.7ポイントの差があり、ベンチマークの識別力が確認されている。
ボトムアップのような構造的アプローチは、より弱いモデルを最大9.4ポイント改善し、構成生成は1.3%まで低下する。
手動でアノテートされた500以上のエラー解析では、ロジックエラー(56.2%)と依存性エラー(38.0%)が支配的であり、メソッド間の調整がコアボトルネックであることが示された。
関連論文リスト
- MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。
多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。
MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-02-22T01:39:16Z) - How2Everything: Mining the Web for How-To Procedures to Evaluate and Improve LLMs [49.61011897610774]
How2Everythingは、ゴール条件ドプロシージャの生成を評価し改善するフレームワークである。
私たちのフレームワークには、14トピックにわたる980KのWebページから351KのプロシージャをマイニングするHow2Mineが含まれています。
How2Score(ハウ2スコア)は、LLMジャッジを使用して、世代が目標達成を阻止する重要な障害を含むかどうかを検出する評価プロトコルである。
論文 参考訳(メタデータ) (2026-02-09T15:47:14Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Beyond Synthetic Benchmarks: Evaluating LLM Performance on Real-World Class-Level Code Generation [3.9189409002585567]
大規模言語モデル(LLM)は関数レベルのコード生成ベンチマークで強い性能を示している。
本稿では,実環境下での一般化を評価するために,実世界のオープンソースリポジトリから得られたベンチマークを紹介する。
入力仕様の完全性と検索拡張生成が複数の最先端LCMのクラスレベルの正しさにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-10-30T04:30:23Z) - A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback [30.446511584123492]
大規模言語モデル(LLM)はコード生成において著しく進歩しているが、階層化され多様な制約を持つ複雑なプログラミング命令に従う能力はいまだ探索されていない。
複数次元にわたるコード生成における命令追従の評価を目的とした総合ベンチマークであるMultiCodeIFを紹介する。
我々は14のプログラミング言語から得られた2,021のコードタスクを合成し、進化させ、フィードバック駆動型タスク変種によるマルチターン評価をサポートする。
論文 参考訳(メタデータ) (2025-07-01T11:51:40Z) - A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models [48.361839372110246]
本研究では,制約拡張,競合検出,命令書き換えを行う自動命令生成パイプラインを開発する。
我々は、19の大規模言語モデルを評価し、制約形式間の性能のかなりの変動を明らかにする。
詳細な分析では、これらの利得は主にモデルのアテンションモジュールパラメータの変更に起因していることを示している。
論文 参考訳(メタデータ) (2025-05-12T14:16:55Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - ClassEval-T: Evaluating Large Language Models in Class-Level Code Translation [19.69195067838796]
クラスレベルのコード翻訳ベンチマークであるClassEval-Tを構築し、クラスレベルのコード翻訳における最近のLLMの性能を広範囲に評価する最初の試みを行う。
完全なコードサンプルと関連するテストスイートを使って、JavaとC++への手動移行を実現するのに、私たちは360人時間を費やしました。
実験結果は,最も広く研究されているメソッドレベルのコード翻訳ベンチマークと比較して,顕著な性能低下を示した。
論文 参考訳(メタデータ) (2024-11-09T11:13:14Z) - Adaptive Verifiable Training Using Pairwise Class Similarity [17.89932271240133]
検証可能なトレーニングは、特定のノイズに対して確実に堅牢なニューラルネットワークの作成に成功しています。
しかしながら、単一のロバスト性基準を強制するにも関わらず、そのパフォーマンスはデータセットの複雑さに乏しい。
クラス間の類似性を利用して検証可能なトレーニングのパフォーマンスを向上させる新しいアプローチを提案します。
論文 参考訳(メタデータ) (2020-12-14T19:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。