Fugu-MT 論文翻訳(概要): Benchmarking and Revisiting Code Generation Assessment: A Mutation-Based Approach

論文の概要: Benchmarking and Revisiting Code Generation Assessment: A Mutation-Based Approach

arxiv url: http://arxiv.org/abs/2505.06880v1
Date: Sun, 11 May 2025 07:14:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:49.087863
Title: Benchmarking and Revisiting Code Generation Assessment: A Mutation-Based Approach
Title（参考訳）: コード生成評価のベンチマークと再考:ミューテーションに基づくアプローチ
Authors: Longtian Wang, Tianlin Li, Xiaofei Xie, Yuhan Zhi, Jian Wang, Chao Shen,
Abstract要約: Code Large Language Models (CLLM) は、プログラム合成において優れた性能を示した。既存のベンチマークは通常、各問題の評価のために1つの入力プロンプトのみを提供する。 10の突然変異戦略を提案し、コード生成への影響を評価するために3つの新しい指標を導入する。
参考スコア（独自算出の注目度）: 20.27214998822657
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code Large Language Models (CLLMs) have exhibited outstanding performance in program synthesis, attracting the focus of the research community. The evaluation of CLLM's program synthesis capability has generally relied on manually curated benchmarks. However, there is a substantial gap between real-world scenarios and benchmark settings. Existing benchmarks typically provide only a single input prompt for the evaluation of each synthesis problem. However, in practice, a problem can be described in various ways, including with typos, where developers may struggle to understand certain descriptions and seek clarification to find more suitable wording. Such various descriptions may lead to variations in the performance of CLLMs on the same question, resulting in a biased evaluation when using existing benchmarks. In this paper, we aim to explore these pitfalls with the goal of revisiting and enhancing future benchmark designs. To simulate real-world variations in problem descriptions, we propose 10 mutation strategies and introduce three new metrics to evaluate their impact on code generation. We then assess five popular CLLMs using 12,834 generated prompt variants, and found a significant performance discrepancy between the results from existing benchmarks and those from mutated benchmarks containing perturbations and variations. This finding underscores the need for more robust evaluation methods and benchmarks.
Abstract（参考訳）: Code Large Language Models (CLLM) は、プログラム合成において卓越した性能を示し、研究コミュニティの焦点を引き付けている。 CLLMのプログラム合成能力の評価は、一般に手作業によるベンチマークに頼っている。しかし、実際のシナリオとベンチマーク設定の間にはかなりのギャップがあります。既存のベンチマークは通常、各合成問題の評価のために1つの入力プロンプトのみを提供する。しかし、実際には、開発者が特定の記述を理解するのに苦労し、より適切な語句を見つけるために明確化を求めるタイプミスなど、様々な方法で問題を記述することができる。このような様々な説明は、CLLMの性能を同じ質問で変化させる可能性があり、既存のベンチマークを使用するとバイアス評価となる。本稿では,これらの落とし穴について,将来のベンチマーク設計を再検討し,拡張することを目的として検討する。問題記述における実世界の変動をシミュレートするために,10の突然変異戦略を提案し,コード生成への影響を評価するために3つの新しい指標を導入した。次に、12,834個のプロンプト変種を用いて5つのCLLMを評価し、既存のベンチマークの結果と、摂動と変動を含む変異ベンチマークの結果との間に大きな性能差があることを見出した。この発見は、より堅牢な評価方法とベンチマークの必要性を浮き彫りにしている。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles [32.121191446326876]
さまざまなモデルやタスクにまたがって、低いか高いパフォーマンスを連続的に引き起こす異なる書き込みスタイルを特定します。我々の研究は、既存のベンチマークを拡大するためのスケーラブルなアプローチを提供し、LLM性能の測定に提供される評価の外部的妥当性を改善します。
論文参考訳（メタデータ） (2025-07-29T18:59:09Z)
Re-Evaluating Code LLM Benchmarks Under Semantic Mutation [8.58692613099365]
本稿では,コードベンチマークの迅速感度を調査するための実証的研究について述べる。本稿では,プロンプトテンプレートのセマンティクスと構造を両立させる手法として,プロンプトテンプレートを改良する汎用フレームワークを提案する。この結果から, 急激な変化であっても, 性能が著しく変化することが示唆された。
論文参考訳（メタデータ） (2025-06-20T15:30:36Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
StaICC: Standardized Evaluation for Classification Task in In-context Learning [3.0531121420837226]
本稿では,テキスト内分類のための標準化された簡易評価ツールキット(StaICC)を提案する。通常の分類タスクでは、StaICC-Normalを提供し、10個の広く使われているデータセットを選択し、一定の形式でプロンプトを生成する。また,複数の側面からICLを診断するためのサブベンチマーク StaICC-Diag も提供し,より堅牢な推論処理を目指している。
論文参考訳（メタデータ） (2025-01-27T00:05:12Z)
A Preliminary Study of Multilingual Code Language Models for Code Generation Task Using Translated Benchmarks [0.0]
コード生成のために構築されたオープンソースの多言語CLMであるPoly-Coderの性能を評価する。以上の結果から,これらのベンチマークで得られた結果は,トレーニングフェーズで使用する評価指標とよく一致していることがわかった。これらの初期の洞察は、より包括的な実証研究の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-11-23T06:40:47Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文参考訳（メタデータ） (2023-05-24T11:53:29Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文参考訳（メタデータ） (2021-07-14T21:08:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。