論文の概要: An LLM-as-Judge Metric for Bridging the Gap with Human Evaluation in SE Tasks
- arxiv url: http://arxiv.org/abs/2505.20854v1
- Date: Tue, 27 May 2025 08:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.493984
- Title: An LLM-as-Judge Metric for Bridging the Gap with Human Evaluation in SE Tasks
- Title(参考訳): SEタスクにおける人的評価によるギャップブリッジ用LCM-as-Judge Metric
- Authors: Xin Zhou, Kisub Kim, Ting Zhang, Martin Weyssow, Luis F. Gomes, Guang Yang, David Lo,
- Abstract要約: LLM-as-Ensemble-Judgeの最初の評価指標であるSWE-Judgeについて述べる。
SWE-Judgeはまず5つの異なる評価戦略を定義し、それぞれ独立した審査員として実施した。
ダイナミックなチーム選択メカニズムは、審査員の最も適切なサブセットを特定し、最終的な正当性スコアを生成する。
- 参考スコア(独自算出の注目度): 15.95854961699971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) and other automated techniques have been increasingly used to support software developers by generating software artifacts such as code snippets, patches, and comments. However, accurately assessing the correctness of these generated artifacts remains a significant challenge. On one hand, human evaluation provides high accuracy but is labor-intensive and lacks scalability. On the other hand, other existing automatic evaluation metrics are scalable and require minimal human effort, but they often fail to accurately reflect the actual correctness of generated software artifacts. In this paper, we present SWE-Judge, the first evaluation metric for LLM-as-Ensemble-Judge specifically designed to accurately assess the correctness of generated software artifacts. SWE-Judge first defines five distinct evaluation strategies, each implemented as an independent judge. A dynamic team selection mechanism then identifies the most appropriate subset of judges to produce a final correctness score through ensembling. We evaluate SWE-Judge across a diverse set of software engineering (SE) benchmarks, including CoNaLa, Card2Code, HumanEval-X, APPS, APR-Assess, and Summary-Assess. These benchmarks span three SE tasks: code generation, automated program repair, and code summarization. Experimental results demonstrate that SWE-Judge consistently achieves a higher correlation with human judgments, with improvements ranging from 5.9% to 183.8% over existing automatic metrics. Furthermore, SWE-Judge reaches agreement levels with human annotators that are comparable to inter-annotator agreement in code generation and program repair tasks. These findings underscore SWE-Judge's potential as a scalable and reliable alternative to human evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)やその他の自動化技術は、コードスニペットやパッチ、コメントなどのソフトウェアアーチファクトを生成することで、ソフトウェア開発者をサポートするためにますます使われています。
しかし、これらの生成したアーティファクトの正確さを正確に評価することは重要な課題である。
一方、人間の評価は高い精度を提供するが、労働集約的でスケーラビリティに欠ける。
一方、他の既存の自動評価指標はスケーラブルで、最小限の人的労力を必要とするが、生成されたソフトウェアアーティファクトの実際の正しさを正確に反映することができないことが多い。
本稿では,LLM-as-Ensemble-Judgeの最初の評価基準であるSWE-Judgeについて述べる。
SWE-Judgeはまず5つの異なる評価戦略を定義し、それぞれ独立した審査員として実施した。
動的チーム選択機構は、判断の最も適切なサブセットを特定し、アンサンブルを通じて最終的な正当性スコアを生成する。
我々は、CoNaLa、Card2Code、HumanEval-X、APPS、APR-Assess、Session-Assessなど、さまざまなソフトウェアエンジニアリング(SE)ベンチマークでSWE-Judgeを評価した。
これらのベンチマークは、コード生成、プログラムの自動修復、コードの要約という3つのSEタスクにまたがる。
実験の結果、SWE-Judgeは、既存の自動測定値よりも5.9%から183.8%の改善があり、人間の判断と常に高い相関を達成していることが示された。
さらに、SWE-Judgeはコード生成やプログラム修復タスクにおいて、アノテータ間の合意に匹敵する人間のアノテータとの合意レベルに達する。
これらの結果は、SWE-Judgeが人間の評価に代わるスケーラブルで信頼性の高い代替品としての可能性を示している。
関連論文リスト
- Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering [18.766132076075365]
大規模言語モデル(LLM)は、コード生成のような様々なソフトウェアエンジニアリング(SE)タスクに取り組むためにデプロイされている。
Pass@kメトリックは、広範囲なユニットテストと設定された環境を必要とし、LLM生成したテキストの評価には適していない。
BLEUのような従来のメトリクスは、意味的類似性ではなく語彙のみを測定するが、精査されている。
論文 参考訳(メタデータ) (2025-02-10T06:49:29Z) - SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。
SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。
我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文 参考訳(メタデータ) (2025-01-26T16:45:09Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。