Fugu-MT 論文翻訳(概要): Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation

論文の概要: Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation

arxiv url: http://arxiv.org/abs/2505.16222v1
Date: Thu, 22 May 2025 04:49:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.041927
Title: Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation
Title（参考訳）: コードカバレッジで判断するな - コード評価のためのLCM判事のバイアスを探る
Authors: Jiwon Moon, Yerin Hwang, Dongryeol Lee, Taegwan Kang, Yongil Kim, Kyomin Jung,
Abstract要約: 評価子として大きな言語モデルを使用すると、コード評価タスクに拡張される。 LLMは、表面的なバリエーションで意味論的に等価なコードを公平かつ堅牢に評価できますか? コード評価における潜在的なバイアスを6種類定義し,この問題を包括的に検討した。
参考スコア（独自算出の注目度）: 14.521056434373213
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: With the growing use of large language models(LLMs) as evaluators, their application has expanded to code evaluation tasks, where they assess the correctness of generated code without relying on reference implementations. While this offers scalability and flexibility, it also raises a critical, unresolved question: Can LLM judges fairly and robustly evaluate semantically equivalent code with superficial variations? Functionally correct code often exhibits variations-such as differences in variable names, comments, or formatting-that should not influence its correctness. Yet, whether LLM judges can reliably handle these variations remains unclear. We present the first comprehensive study of this issue, defining six types of potential bias in code evaluation and revealing their systematic impact on LLM judges. Across five programming languages and multiple LLMs, we empirically demonstrate that all tested LLM judges are susceptible to both positive and negative biases, resulting in inflated or unfairly low scores. Moreover, we observe that LLM judges remain vulnerable to these biases even when prompted to generate test cases before scoring, highlighting the need for more robust code evaluation methods.
Abstract（参考訳）: 大規模な言語モデル(LLM)を評価ツールとして利用することで、それらのアプリケーションはコード評価タスクにまで拡張され、参照実装に頼ることなく、生成されたコードの正確性を評価するようになった。 LLMは、表面的なバリエーションで意味論的に等価なコードを公平かつ堅牢に評価できますか? 機能的に正しいコードは、変数名、コメント、フォーマッティングの違いなど、その正確さに影響を与えないバリエーションを示すことが多い。しかし、LLM判事がこれらのバリエーションを確実に扱えるかどうかは不明だ。コード評価における潜在的なバイアスを6種類定義し,LLM審査員に対する体系的な影響を明らかにする。 5 つのプログラミング言語と複数の LLM に対して、試験された LLM の審査員は、正と負の両方のバイアスを受けやすいことを実証的に証明し、その結果、膨らませたり、不公平にスコアを下げる結果となった。さらに,評価前にテストケースを生成するように促された場合においても,LSMの判断はこれらのバイアスに弱いままであり,より堅牢なコード評価方法の必要性を強調している。

関連論文リスト

LLMs on Trial: Evaluating Judicial Fairness for Large Language Models [18.895994052898754]
大規模言語モデル(LLM)は、その決定が権利や株式に影響を及ぼすハイテイク分野において、ますます使われている。 LLMsの司法公正性と社会正義への含意はいまだに過小評価されている。 LLMの公平度を測定するための総合的なフレームワークを構築し、65ラベルと161の値が選択される。この枠組みを司法システムに適用し、177,100のユニークな事例事実からなる広範なデータセットJudiFairをコンパイルする。
論文参考訳（メタデータ） (2025-07-14T22:56:58Z)
CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。 LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文参考訳（メタデータ） (2025-07-14T17:56:29Z)
Quantitative LLM Judges [48.676042957523045]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文参考訳（メタデータ） (2025-06-03T14:44:23Z)
JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文参考訳（メタデータ） (2024-10-16T17:58:19Z)
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文参考訳（メタデータ） (2024-10-03T17:53:30Z)
Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文参考訳（メタデータ） (2024-08-23T11:49:01Z)
Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文参考訳（メタデータ） (2024-06-19T10:59:48Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。コード推論は、コードLLMの最も重要な能力の1つである。本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文参考訳（メタデータ） (2024-03-25T05:37:16Z)
A Comprehensive Evaluation of Large Language Models on Legal Judgment Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。 GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文参考訳（メタデータ） (2023-10-18T07:38:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。