論文の概要: Analyzing and Mitigating Surface Bias in Code Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2509.15397v2
- Date: Tue, 07 Oct 2025 22:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.141893
- Title: Analyzing and Mitigating Surface Bias in Code Evaluation Metrics
- Title(参考訳): コード評価基準における表面バイアスの分析と緩和
- Authors: Simantika Bhattacharjee Dristi, Matthew B. Dwyer,
- Abstract要約: 我々は4つの基準ベースコード評価指標(CEM)を批判的に評価する。
本稿では,CEM評価ベンチマークであるLoCaLを提案する。
その結果, 4つのCEMは, ベースラインに比べてLoCaLの性能が著しく低下していることが判明した。
- 参考スコア(独自算出の注目度): 15.211628096103473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing popularity of large language models (LLMs) and LLM-based agents, reliable and effective code evaluation metrics (CEMs) have become crucial for progress across several software engineering tasks. While popular benchmarks often provide test cases to assess the correctness of generated code, crafting and executing test cases is expensive. Reference-based CEMs provide a cheaper alternative by scoring a candidate program based on its functional similarity to a reference. Although prior research has focused on reporting the weak correlation between these CEMs and functional correctness, the causes are only assumed, and plausible solutions remain unexplored. In this work, we critically evaluate four state-of-the-art reference-based CEMs, revealing their strong bias towards surface-level features rather than code functionality. Despite this surface bias, current evaluation datasets for these CEMs rarely include code pairs that are surface-similar yet functionally dissimilar, or functionally similar yet surface-dissimilar. To mitigate this gap, we propose LoCaL (Looks Can Lie), a CEM evaluation benchmark, with 3117 code pairs at both the method and program levels. Each pair is labeled with a functional similarity score and aims to target regions where CEMs are likely to perform poorly. The functional similarity scores are calculated through differential fuzzing, which eliminates the need for predefined test cases and, at the same time, improves the reliability of the scores by executing an order of magnitude more tests than prior work. We find that all four CEMs show significant performance degradation on LoCaL, compared to the baselines. Finally, based on our findings, we draw the implication that exposing CEMs to LoCaL-like data might facilitate the development of metrics that are robust to surface bias.
- Abstract(参考訳): 大規模言語モデル(LLM)やLLMベースのエージェントの普及に伴い、信頼性が高く効果的なコード評価指標(CEM)は、いくつかのソフトウェアエンジニアリングタスクの進行に欠かせないものとなっている。
人気のあるベンチマークは、生成されたコードの正確性を評価するテストケースを提供することが多いが、テストケースの作成と実行は高価である。
参照ベースのCEMは、参照と機能的類似性に基づいて候補プログラムを評価することで、より安価な代替手段を提供する。
これまでの研究では、これらのCEMと機能的正当性の間の弱い相関を報告することに焦点が当てられていたが、原因は推測されるのみであり、実証可能な解は未解明のままである。
本研究では、4つの最先端の参照ベースのCEMを批判的に評価し、コード機能よりも表面レベルの機能に対する強いバイアスを明らかにした。
この表面バイアスにもかかわらず、これらのCEMに対する現在の評価データセットは、表面が似ているが機能的に異なる、あるいは機能的に似ているが表面が類似しているコードペアをほとんど含まない。
このギャップを緩和するために,CEM評価ベンチマークであるLoCaL(Looks Can Lie)を提案する。
各ペアは機能的類似度スコアでラベル付けされ、CEMのパフォーマンスが低下する可能性のある領域をターゲットにしている。
機能的類似度スコアは差分ファジィングによって計算され、これは事前定義されたテストケースの必要性を排除し、同時に、以前の作業よりも桁違いに多くのテストを実行することでスコアの信頼性を向上させる。
その結果, 4つのCEMは, ベースラインに比べてLoCaLの性能が著しく低下していることが判明した。
最後に, この結果から, CEMをLoCaLライクなデータに曝すことによって, 表面バイアスに頑健なメトリクスの開発が促進される可能性が示唆された。
関連論文リスト
- Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation [6.4212082894269535]
既存のリーク検出技術である置換法とn-gram法を比較した。
解析の結果,n-gram法は高いF1スコアが得られることがわかった。
MMLUとHellaSwagのクリーンバージョンを作成し、複数のLLMを再評価する。
論文 参考訳(メタデータ) (2025-05-30T06:37:39Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。