論文の概要: Large Language Models Are State-of-the-Art Evaluators of Code Generation
- arxiv url: http://arxiv.org/abs/2304.14317v1
- Date: Thu, 27 Apr 2023 16:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 12:43:29.269540
- Title: Large Language Models Are State-of-the-Art Evaluators of Code Generation
- Title(参考訳): 大規模言語モデルはコード生成の最先端評価器である
- Authors: Terry Yue Zhuo
- Abstract要約: コード生成評価のためのGPT-3.5(textttGPT-3.5-turbo)に基づく新しい評価フレームワークを提案する。
本フレームワークは,機能的正しさと人間の嗜好に優れた相関性を実現することによって,既存のアプローチの限界に対処する。
我々は、トレーニング済みモデルに依存する最先端のCodeBERTScoreメトリックと比較する。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in the field of natural language generation have
facilitated the use of large language models to assess the quality of generated
text. Although these models have shown promising results in tasks such as
machine translation and summarization, their applicability in code generation
tasks remains limited without human involvement. The complexity of programming
concepts required for such tasks makes it difficult to develop evaluation
metrics that align with human judgment. Token-matching-based metrics, such as
BLEU, have demonstrated weak correlations with human practitioners in code
generation tasks. Moreover, the utilization of human-written test suites to
evaluate functional correctness can be challenging in domains with low
resources. To overcome these obstacles, we propose a new evaluation framework
based on the GPT-3.5 (\texttt{GPT-3.5-turbo}), for code generation assessments.
Our framework addresses the limitations of existing approaches by achieving
superior correlations with functional correctness and human preferences,
without the need for test oracles or references. We evaluate the efficacy of
our framework on two different tasks and four programming languages, comparing
its performance with the state-of-the-art CodeBERTScore metric, which relies on
a pre-trained model. Our results demonstrate that our framework surpasses
CodeBERTScore, delivering high levels of accuracy and consistency across
various programming languages and tasks. We also make our evaluation framework
and datasets available to the public at
\url{https://github.com/terryyz/llm-code-eval}, encouraging further research in
the evaluation of code generation.
- Abstract(参考訳): 自然言語生成の分野における最近の進歩は、生成されたテキストの品質を評価するために、大規模な言語モデルの使用を促進した。
これらのモデルは機械翻訳や要約などのタスクにおいて有望な結果を示しているが、コード生成タスクの適用性は人間の関与なしに制限されている。
このようなタスクに必要なプログラミング概念の複雑さは、人間の判断に沿う評価指標の開発を困難にしている。
BLEUのようなトークンマッチングベースのメトリクスは、コード生成タスクにおいて人間の実践者と弱い相関を示す。
また,低リソース領域では,人間の手書きテストスイートを用いて機能的正当性を評価することは困難である。
これらの障害を克服するために,コード生成評価のための GPT-3.5 (\texttt{GPT-3.5-turbo}) に基づく新しい評価フレームワークを提案する。
本フレームワークは,機能的正しさと人的嗜好との相関性に優れ,オーラクルや参照を必要とせず,既存のアプローチの限界に対処する。
我々は2つの異なるタスクと4つのプログラミング言語におけるフレームワークの有効性を評価し、その性能を事前訓練されたモデルに依存する最先端のCodeBERTScoreメトリックと比較した。
私たちのフレームワークはCodeBERTScoreを超え、様々なプログラミング言語やタスクに対して高いレベルの精度と一貫性を提供します。
また、評価フレームワークとデータセットを \url{https://github.com/terryyz/llm-code-eval} で公開しています。
関連論文リスト
- Linguistics Theory Meets LLM: Code-Switched Text Generation via Equivalence Constrained Large Language Models [16.82812708514889]
1つの会話で2つ以上の言語を交互に交互に行うコードスイッチングは、自然言語処理(NLP)に特有の課題を提示する
既存の研究は構文的制約やニューラルジェネレーションに重点を置いており、言語理論を言語モデル(LLM)と統合して自然なコード変更テキストを生成する努力はほとんどない。
等価制約理論(ECT)とLLMを組み合わせた新しいフレームワークであるEZSwitchを導入する。
論文 参考訳(メタデータ) (2024-10-30T03:03:32Z) - On the Limitations of Embedding Based Methods for Measuring Functional Correctness for Code Generation [4.065344017083881]
CodeBERTScoreのような埋め込みベースのメトリクスを使って、機能的正確性や編集作業などの有用な構造を計測する能力を分析します。
その結果,機能的正当性(0.16)との相関は弱いものの,編集作業と強く相関している(0.72)ことがわかった。
論文 参考訳(メタデータ) (2024-04-26T15:54:39Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - GRUEN for Evaluating Linguistic Quality of Generated Text [17.234442722611803]
本稿では、文法性、非冗長性、focU、生成したテキストの構造とコヒーレンスを評価するためのGRUENを提案する。
GRUENはBERTベースのモデルと構文的、意味的、文脈的特徴のクラスを使用してシステム出力を調べる。
論文 参考訳(メタデータ) (2020-10-06T05:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。