論文の概要: Benchmarking and Revisiting Code Generation Assessment: A Mutation-Based Approach
- arxiv url: http://arxiv.org/abs/2505.06880v1
- Date: Sun, 11 May 2025 07:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.087863
- Title: Benchmarking and Revisiting Code Generation Assessment: A Mutation-Based Approach
- Title(参考訳): コード生成評価のベンチマークと再考:ミューテーションに基づくアプローチ
- Authors: Longtian Wang, Tianlin Li, Xiaofei Xie, Yuhan Zhi, Jian Wang, Chao Shen,
- Abstract要約: Code Large Language Models (CLLM) は、プログラム合成において優れた性能を示した。
既存のベンチマークは通常、各問題の評価のために1つの入力プロンプトのみを提供する。
10の突然変異戦略を提案し、コード生成への影響を評価するために3つの新しい指標を導入する。
- 参考スコア(独自算出の注目度): 20.27214998822657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code Large Language Models (CLLMs) have exhibited outstanding performance in program synthesis, attracting the focus of the research community. The evaluation of CLLM's program synthesis capability has generally relied on manually curated benchmarks. However, there is a substantial gap between real-world scenarios and benchmark settings. Existing benchmarks typically provide only a single input prompt for the evaluation of each synthesis problem. However, in practice, a problem can be described in various ways, including with typos, where developers may struggle to understand certain descriptions and seek clarification to find more suitable wording. Such various descriptions may lead to variations in the performance of CLLMs on the same question, resulting in a biased evaluation when using existing benchmarks. In this paper, we aim to explore these pitfalls with the goal of revisiting and enhancing future benchmark designs. To simulate real-world variations in problem descriptions, we propose 10 mutation strategies and introduce three new metrics to evaluate their impact on code generation. We then assess five popular CLLMs using 12,834 generated prompt variants, and found a significant performance discrepancy between the results from existing benchmarks and those from mutated benchmarks containing perturbations and variations. This finding underscores the need for more robust evaluation methods and benchmarks.
- Abstract(参考訳): Code Large Language Models (CLLM) は、プログラム合成において卓越した性能を示し、研究コミュニティの焦点を引き付けている。
CLLMのプログラム合成能力の評価は、一般に手作業によるベンチマークに頼っている。
しかし、実際のシナリオとベンチマーク設定の間にはかなりのギャップがあります。
既存のベンチマークは通常、各合成問題の評価のために1つの入力プロンプトのみを提供する。
しかし、実際には、開発者が特定の記述を理解するのに苦労し、より適切な語句を見つけるために明確化を求めるタイプミスなど、様々な方法で問題を記述することができる。
このような様々な説明は、CLLMの性能を同じ質問で変化させる可能性があり、既存のベンチマークを使用するとバイアス評価となる。
本稿では,これらの落とし穴について,将来のベンチマーク設計を再検討し,拡張することを目的として検討する。
問題記述における実世界の変動をシミュレートするために,10の突然変異戦略を提案し,コード生成への影響を評価するために3つの新しい指標を導入した。
次に、12,834個のプロンプト変種を用いて5つのCLLMを評価し、既存のベンチマークの結果と、摂動と変動を含む変異ベンチマークの結果との間に大きな性能差があることを見出した。
この発見は、より堅牢な評価方法とベンチマークの必要性を浮き彫りにしている。
関連論文リスト
- Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - StaICC: Standardized Evaluation for Classification Task in In-context Learning [3.0531121420837226]
本稿では,テキスト内分類のための標準化された簡易評価ツールキット(StaICC)を提案する。
通常の分類タスクでは、StaICC-Normalを提供し、10個の広く使われているデータセットを選択し、一定の形式でプロンプトを生成する。
また,複数の側面からICLを診断するためのサブベンチマーク StaICC-Diag も提供し,より堅牢な推論処理を目指している。
論文 参考訳(メタデータ) (2025-01-27T00:05:12Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。