論文の概要: Comparing Developer and LLM Biases in Code Evaluation
- arxiv url: http://arxiv.org/abs/2603.24586v1
- Date: Wed, 25 Mar 2026 17:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.432162
- Title: Comparing Developer and LLM Biases in Code Evaluation
- Title(参考訳): コード評価における開発者とLCMのバイアスの比較
- Authors: Aditya Mittal, Ryan Shar, Zichu Wu, Shyam Agarwal, Tongshuang Wu, Chris Donahue, Ameet Talwalkar, Wayne Chi, Valerie Chen,
- Abstract要約: 本稿では,人間の嗜好を予測できる判断能力を評価する枠組みであるTRACEを提案する。
13の異なるモデルの中で、優れた審査員は、人間のアノテータを12~23%下回っている。
既存のコード品質のディメンションの大部分において,重大なミスアライメントが見られます。
- 参考スコア(独自算出の注目度): 30.695314123307764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs are increasingly used as judges in code applications, they should be evaluated in realistic interactive settings that capture partial context and ambiguous intent. We present TRACE (Tool for Rubric Analysis in Code Evaluation), a framework that evaluates LLM judges' ability to predict human preferences and automatically extracts rubric items to reveal systematic biases in how humans and models weigh each item. Across three modalities -- chat-based programming, IDE autocompletion, and instructed code editing -- we use TRACE to measure how well LLM judges align with developer preferences. Among 13 different models, the best judges underperform human annotators by 12-23%. TRACE identifies 35 significant sources of misalignment between humans and judges across interaction modalities, the majority of which correspond to existing software engineering code quality criteria. For example, in chat-based coding, judges are biased towards longer code explanations while humans prefer shorter ones. We find significant misalignment on the majority of existing code quality dimensions, showing alignment gaps between LLM judges and human preference in realistic coding applications.
- Abstract(参考訳): LLMは、コードアプリケーションの審査員としてますます使われているので、部分的なコンテキストと曖昧な意図をキャプチャする現実的なインタラクティブな設定で評価されるべきです。
提案するTRACE(Tool for Rubric Analysis in Code Evaluation)は,LLM審査員が人間の嗜好を予測する能力を評価するためのフレームワークである。
3つのモダリティ -- チャットベースのプログラミング、IDEの自動補完、コード編集の指示 -- はTRACEを使って、LLMの審査員が開発者の好みとどのように一致しているかを測定します。
13の異なるモデルの中で、優れた審査員は、人間のアノテータを12~23%下回っている。
TRACEは、既存のソフトウェアエンジニアリングのコード品質基準に適合する、インタラクションのモダリティを越えて、人間と裁判官の間の35の重大なミスアライメントを特定できる。
例えば、チャットベースのコーディングでは、審査員はより長いコード説明に偏り、人間はより短いものを好む。
LLM審査員とリアルなコーディングアプリケーションにおける人間の嗜好の相違を示すため、既存のコード品質のディメンションの大部分に重大なミスアライメントがあることがわかりました。
関連論文リスト
- BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution [68.95247403447051]
BigCodeArenaは、包括的でオンザフライな実行環境を背景とした、コード生成のためのオープンなヒューマン評価プラットフォームである。
10の言語と8種類の実行環境にまたがる10のLLMで14,000以上の生のコード中心の会話セッションを収集しました。
BigCodeRewardでは、4700件の会話を後処理し、報酬モデルと人間の好みの一貫性を評価した。
論文 参考訳(メタデータ) (2025-10-09T18:01:47Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - An LLM-as-Judge Metric for Bridging the Gap with Human Evaluation in SE Tasks [15.820416019287622]
SE-JuryはLLM-as-Ensemble-Judgeの最初の評価基準である。
さまざまなソフトウェアエンジニアリング(SE)ベンチマークでSE-Juryを評価します。
論文 参考訳(メタデータ) (2025-05-27T08:04:34Z) - Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering [18.766132076075365]
大規模言語モデル(LLM)は、コード生成のような様々なソフトウェアエンジニアリング(SE)タスクに取り組むためにデプロイされている。
Pass@kメトリックは、広範囲なユニットテストと設定された環境を必要とし、LLM生成したテキストの評価には適していない。
BLEUのような従来のメトリクスは、意味的類似性ではなく語彙のみを測定するが、精査されている。
論文 参考訳(メタデータ) (2025-02-10T06:49:29Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。