論文の概要: Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering
- arxiv url: http://arxiv.org/abs/2502.06193v1
- Date: Mon, 10 Feb 2025 06:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:50.877874
- Title: Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering
- Title(参考訳): LLMは人間の評価装置を置き換えることができるか? ソフトウェア工学におけるLCM-as-a-Judgeの実証研究
- Authors: Ruiqi Wang, Jiyu Guo, Cuiyun Gao, Guodong Fan, Chun Yong Chong, Xin Xia,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成のような様々なソフトウェアエンジニアリング(SE)タスクに取り組むためにデプロイされている。
Pass@kメトリックは、広範囲なユニットテストと設定された環境を必要とし、LLM生成したテキストの評価には適していない。
BLEUのような従来のメトリクスは、意味的類似性ではなく語彙のみを測定するが、精査されている。
- 参考スコア(独自算出の注目度): 18.766132076075365
- License:
- Abstract: Recently, large language models (LLMs) have been deployed to tackle various software engineering (SE) tasks like code generation, significantly advancing the automation of SE tasks. However, assessing the quality of these LLM-generated code and text remains challenging. The commonly used Pass@k metric necessitates extensive unit tests and configured environments, demands a high labor cost, and is not suitable for evaluating LLM-generated text. Conventional metrics like BLEU, which measure only lexical rather than semantic similarity, have also come under scrutiny. In response, a new trend has emerged to employ LLMs for automated evaluation, known as LLM-as-a-judge. These LLM-as-a-judge methods are claimed to better mimic human assessment than conventional metrics without relying on high-quality reference answers. Nevertheless, their exact human alignment in SE tasks remains unexplored. In this paper, we empirically explore LLM-as-a-judge methods for evaluating SE tasks, focusing on their alignment with human judgments. We select seven LLM-as-a-judge methods that utilize general-purpose LLMs, alongside two LLMs specifically fine-tuned for evaluation. After generating and manually scoring LLM responses on three recent SE datasets of code translation, code generation, and code summarization, we then prompt these methods to evaluate each response. Finally, we compare the scores generated by these methods with human evaluation. The results indicate that output-based methods reach the highest Pearson correlation of 81.32 and 68.51 with human scores in code translation and generation, achieving near-human evaluation, noticeably outperforming ChrF++, one of the best conventional metrics, at 34.23 and 64.92. Such output-based methods prompt LLMs to output judgments directly, and exhibit more balanced score distributions that resemble human score patterns. Finally, we provide...
- Abstract(参考訳): 最近、コード生成のような様々なソフトウェアエンジニアリング(SE)タスクに対処するために、大規模な言語モデル(LLM)がデプロイされ、SEタスクの自動化が大幅に進んでいる。
しかし、これらのLLM生成コードとテキストの品質を評価することは依然として困難である。
一般的に使用されるPass@kメトリクスは、広範囲なユニットテストと構成された環境を必要とし、高い労働コストを要求し、LLM生成したテキストを評価するには適さない。
BLEUのような従来のメトリクスは、意味的類似性ではなく語彙のみを測定するが、精査されている。
これに対し、LSMを自動評価に使用する新しい傾向が出現し、LSM-as-a-judgeとして知られている。
これらのLCM-as-a-judge法は、高品質な基準回答に頼ることなく、従来の指標よりも人間の評価をよりよく模倣していると主張されている。
それでも、SEタスクにおける正確な人間のアライメントは未解明のままである。
本稿では,SEタスク評価のためのLCM-as-a-judge手法を実証的に検討し,人間の判断との整合性に着目した。
汎用LSMを利用する7つのLSM-as-a-judge法と、特に評価のために微調整された2つのLSMを選択する。
コード翻訳,コード生成,コード要約の3つのSEデータセット上でLLM応答を生成し,手動で評価した後,各応答を評価するように促す。
最後に,これらの手法によって生成されたスコアと人的評価を比較した。
その結果,コード翻訳と生成におけるPearsonの相関は81.32と68.51が最も高く,ChrF++を34.23と64.92で著しく上回っていることがわかった。
このようなアウトプットベースの手法は、LCMに直接判断を出力させ、人間のスコアパターンに似たバランスの取れたスコア分布を示す。
最後に、我々は...
関連論文リスト
- AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences [11.23629471911503]
EvalGenは、評価基準の生成とアサーションの実装において、ユーザに自動アシストを提供する。
質的研究は、EvalGenに対する全体的なサポートを見出すが、主観性と反復的なアライメントのプロセスを強調している。
ユーザはアウトプットを格付けする基準が必要ですが、アウトプットのグレードは、ユーザが基準を定義するのに役立つのです。
論文 参考訳(メタデータ) (2024-04-18T15:45:27Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。