論文の概要: Analyzing and Mitigating Surface Bias in Code Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2509.15397v2
- Date: Tue, 07 Oct 2025 22:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.141893
- Title: Analyzing and Mitigating Surface Bias in Code Evaluation Metrics
- Title(参考訳): コード評価基準における表面バイアスの分析と緩和
- Authors: Simantika Bhattacharjee Dristi, Matthew B. Dwyer,
- Abstract要約: 我々は4つの基準ベースコード評価指標(CEM)を批判的に評価する。
本稿では,CEM評価ベンチマークであるLoCaLを提案する。
その結果, 4つのCEMは, ベースラインに比べてLoCaLの性能が著しく低下していることが判明した。
- 参考スコア(独自算出の注目度): 15.211628096103473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing popularity of large language models (LLMs) and LLM-based agents, reliable and effective code evaluation metrics (CEMs) have become crucial for progress across several software engineering tasks. While popular benchmarks often provide test cases to assess the correctness of generated code, crafting and executing test cases is expensive. Reference-based CEMs provide a cheaper alternative by scoring a candidate program based on its functional similarity to a reference. Although prior research has focused on reporting the weak correlation between these CEMs and functional correctness, the causes are only assumed, and plausible solutions remain unexplored. In this work, we critically evaluate four state-of-the-art reference-based CEMs, revealing their strong bias towards surface-level features rather than code functionality. Despite this surface bias, current evaluation datasets for these CEMs rarely include code pairs that are surface-similar yet functionally dissimilar, or functionally similar yet surface-dissimilar. To mitigate this gap, we propose LoCaL (Looks Can Lie), a CEM evaluation benchmark, with 3117 code pairs at both the method and program levels. Each pair is labeled with a functional similarity score and aims to target regions where CEMs are likely to perform poorly. The functional similarity scores are calculated through differential fuzzing, which eliminates the need for predefined test cases and, at the same time, improves the reliability of the scores by executing an order of magnitude more tests than prior work. We find that all four CEMs show significant performance degradation on LoCaL, compared to the baselines. Finally, based on our findings, we draw the implication that exposing CEMs to LoCaL-like data might facilitate the development of metrics that are robust to surface bias.
- Abstract(参考訳): 大規模言語モデル(LLM)やLLMベースのエージェントの普及に伴い、信頼性が高く効果的なコード評価指標(CEM)は、いくつかのソフトウェアエンジニアリングタスクの進行に欠かせないものとなっている。
人気のあるベンチマークは、生成されたコードの正確性を評価するテストケースを提供することが多いが、テストケースの作成と実行は高価である。
参照ベースのCEMは、参照と機能的類似性に基づいて候補プログラムを評価することで、より安価な代替手段を提供する。
これまでの研究では、これらのCEMと機能的正当性の間の弱い相関を報告することに焦点が当てられていたが、原因は推測されるのみであり、実証可能な解は未解明のままである。
本研究では、4つの最先端の参照ベースのCEMを批判的に評価し、コード機能よりも表面レベルの機能に対する強いバイアスを明らかにした。
この表面バイアスにもかかわらず、これらのCEMに対する現在の評価データセットは、表面が似ているが機能的に異なる、あるいは機能的に似ているが表面が類似しているコードペアをほとんど含まない。
このギャップを緩和するために,CEM評価ベンチマークであるLoCaL(Looks Can Lie)を提案する。
各ペアは機能的類似度スコアでラベル付けされ、CEMのパフォーマンスが低下する可能性のある領域をターゲットにしている。
機能的類似度スコアは差分ファジィングによって計算され、これは事前定義されたテストケースの必要性を排除し、同時に、以前の作業よりも桁違いに多くのテストを実行することでスコアの信頼性を向上させる。
その結果, 4つのCEMは, ベースラインに比べてLoCaLの性能が著しく低下していることが判明した。
最後に, この結果から, CEMをLoCaLライクなデータに曝すことによって, 表面バイアスに頑健なメトリクスの開発が促進される可能性が示唆された。
関連論文リスト
- Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。
MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。
本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2026-02-08T16:06:12Z) - MS-ISSM: Objective Quality Assessment of Point Clouds Using Multi-scale Implicit Structural Similarity [65.85858856481131]
点雲の非構造的で不規則な性質は、客観的品質評価(PCQA)に重大な課題をもたらす
マルチスケールインシシシット構造類似度測定(MS-ISSM)を提案する。
論文 参考訳(メタデータ) (2026-01-03T14:58:52Z) - AXIOM: Benchmarking LLM-as-a-Judge for Code via Rule-Based Perturbation and Multisource Quality Calibration [28.117814524373667]
AXIOMは、大規模なコード評価ベンチマークを合成するための新しい摂動ベースのフレームワークである。
プログラムスコアをデプロイメントに必要な改善作業として再設定する。
論文 参考訳(メタデータ) (2025-12-23T08:39:22Z) - Uncovering Competency Gaps in Large Language Models and Their Benchmarks [11.572508874955659]
本稿では,スパースオートエンコーダ(SAE)を用いて,両方のギャップを自動的に発見する手法を提案する。
我々は、モデルが、サイコファンティックな振る舞いとは対照的な概念に一貫して劣っていることを発見した。
提案手法は,ベンチマークスコアの概念レベルの分解を可能にするため,評価のための表現的アプローチを提供する。
論文 参考訳(メタデータ) (2025-12-06T17:39:47Z) - Smart but Costly? Benchmarking LLMs on Functional Accuracy and Energy Efficiency [5.771786260272727]
我々は、エネルギー効率と機能的正当性の統一的なスケールでコード言語モデルのベンチマークを行うためのフレームワークBRACEを提案する。
同心性漸進的レーティングサークル(CIRC)と予測レーティング(OTER)の2つの評価手法を提案する。
我々の分析では、文法ベースで構文的に正しい出力を生成するように強制されないため、コード要約タスクにおいて、一般的にモデルの性能が向上することを明らかにした。
論文 参考訳(メタデータ) (2025-11-10T23:44:48Z) - Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation [6.4212082894269535]
既存のリーク検出技術である置換法とn-gram法を比較した。
解析の結果,n-gram法は高いF1スコアが得られることがわかった。
MMLUとHellaSwagのクリーンバージョンを作成し、複数のLLMを再評価する。
論文 参考訳(メタデータ) (2025-05-30T06:37:39Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。