Fugu-MT 論文翻訳(概要): Re-Evaluating Code LLM Benchmarks Under Semantic Mutation

論文の概要: Re-Evaluating Code LLM Benchmarks Under Semantic Mutation

arxiv url: http://arxiv.org/abs/2506.17369v1
Date: Fri, 20 Jun 2025 15:30:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.387758
Title: Re-Evaluating Code LLM Benchmarks Under Semantic Mutation
Title（参考訳）: セマンティック変異によるLLMベンチマークの再評価
Authors: Zhiyuan Pan, Xing Hu, Xin Xia, Xiaohu Yang,
Abstract要約: 本稿では,コードベンチマークの迅速感度を調査するための実証的研究について述べる。本稿では,プロンプトテンプレートのセマンティクスと構造を両立させる手法として,プロンプトテンプレートを改良する汎用フレームワークを提案する。この結果から, 急激な変化であっても, 性能が著しく変化することが示唆された。
参考スコア（独自算出の注目度）: 8.58692613099365
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In the era of large language models (LLMs), code benchmarks have become an important research area in software engineering and are widely used by practitioners. These benchmarks evaluate the performance of LLMs on specific code-related tasks, such as code understanding and generation. A critical step in constructing code benchmarks is the design of prompts. However, as existing code benchmarks typically rely on a single prompt template per task, they are prone to the issue of prompt sensitivity, where minor prompt variations could result in substantial performance variations, leading to unreliable evaluations of model capabilities. While previous studies have explored prompt sensitivity, their experimental designs and findings are limited to traditional natural language processing (NLP) tasks. In this paper, we present an empirical study to investigate prompt sensitivity in code benchmarks. We first propose a general framework that modifies prompt templates in a manner that preserves both their semantics and their structure as much as possible. Based on the framework, we conduct extensive experiments across eight code benchmark tasks on 10 representative open-source LLMs, with each task featuring 100 semantically similar prompt templates. We then analyze the evaluation results using various statistical metrics, focusing on both absolute and relative model performance. Our findings suggest that even slight prompt variations can lead to significant shifts in performance. Additionally, we observe that such variations can introduce inconsistencies in the performance rankings across different models. These insights highlight the need for considering prompt sensitivity when designing future code benchmarks, to ensure more reliable and accurate evaluation of LLM capabilities.
Abstract（参考訳）: 大規模言語モデル(LLM)の時代、コードベンチマークはソフトウェア工学において重要な研究領域となり、実践者が広く使用している。これらのベンチマークは、コード理解や生成など、特定のコード関連タスクにおけるLLMのパフォーマンスを評価する。コードベンチマークを構築する上で重要なステップは、プロンプトの設計である。しかし、既存のコードベンチマークはタスク毎の1つのプロンプトテンプレートに依存しているため、短いプロンプトのばらつきによってパフォーマンスが大幅に変化し、信頼性の低いモデル機能の評価が生じる可能性がある。これまでの研究では、迅速な感度について検討されてきたが、実験的な設計と発見は、従来の自然言語処理(NLP)タスクに限られている。本稿では,コードベンチマークの迅速感度を調査するための実証的研究について述べる。まず,プロンプトテンプレートのセマンティクスと構造を可能な限り保持する方式で,プロンプトテンプレートを修飾する汎用フレームワークを提案する。このフレームワークをベースとして,100のセマンティックに類似したプロンプトテンプレートを特徴とする10のオープンソースLLM上で,8つのコードベンチマークタスクを対象に,広範な実験を行った。次に,絶対モデルと相対モデルの両方の性能に着目し,様々な統計指標を用いて評価結果を解析する。この結果から, 急激な変化であっても, 性能が著しく変化することが示唆された。さらに、このようなバリエーションは、異なるモデル間でのパフォーマンスランキングに矛盾をもたらす可能性があることを観察する。これらの洞察は、将来のコードベンチマークを設計する際の迅速な感度を考慮することの必要性を強調し、LCM機能のより信頼性と正確な評価を保証する。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles [32.121191446326876]
さまざまなモデルやタスクにまたがって、低いか高いパフォーマンスを連続的に引き起こす異なる書き込みスタイルを特定します。我々の研究は、既存のベンチマークを拡大するためのスケーラブルなアプローチを提供し、LLM性能の測定に提供される評価の外部的妥当性を改善します。
論文参考訳（メタデータ） (2025-07-29T18:59:09Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation [1.7268889851975326]
私たちは、テスト駆動開発(TDD)タスクにおいて、大規模言語モデル(LLM)を評価するための新しいベンチマークであるWebApp1Kを紹介します。自然言語のプロンプトに依存する従来のアプローチとは異なり、我々のベンチマークでは、LLMがテストケースから直接機能を解釈し実装する能力を強調しています。
論文参考訳（メタデータ） (2025-05-13T23:47:12Z)
Benchmarking and Revisiting Code Generation Assessment: A Mutation-Based Approach [20.27214998822657]
Code Large Language Models (CLLM) は、プログラム合成において優れた性能を示した。既存のベンチマークは通常、各問題の評価のために1つの入力プロンプトのみを提供する。 10の突然変異戦略を提案し、コード生成への影響を評価するために3つの新しい指標を導入する。
論文参考訳（メタデータ） (2025-05-11T07:14:30Z)
TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models [12.143152327874802]
LLM(Large Language Models)はコード生成のようなコード関連のタスクに優れていますが、ベンチマーク評価は困難などのタスク特性を見落とします。本稿では,多種多様なプロンプトと項目応答理論(IRT)を用いてLCMの能力とベンチマークタスク特性を効率的に評価するフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-30T22:31:19Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
Semantic Consistency for Assuring Reliability of Large Language Models [9.040736633675136]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文参考訳（メタデータ） (2023-08-17T18:11:33Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。