論文の概要: ICE-Score: Instructing Large Language Models to Evaluate Code
- arxiv url: http://arxiv.org/abs/2304.14317v2
- Date: Mon, 22 Jan 2024 17:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 22:04:24.987472
- Title: ICE-Score: Instructing Large Language Models to Evaluate Code
- Title(参考訳): ice-score: 大きな言語モデルにコード評価を指示する
- Authors: Terry Yue Zhuo
- Abstract要約: コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
- 参考スコア(独自算出の注目度): 7.556444391696562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in the field of natural language generation have
facilitated the use of large language models to assess the quality of generated
text. Although these models have shown promising results in tasks such as
machine translation and summarization, their applicability in code intelligence
tasks remains limited without human involvement. The complexity of programming
concepts required for such tasks makes it difficult to develop evaluation
metrics that align with human judgment. Token-matching-based metrics, such as
BLEU, have demonstrated weak correlations with human practitioners in code
intelligence tasks. Moreover, utilizing human-written test suites to evaluate
functional correctness can be challenging in domains with low resources. To
overcome these obstacles, we propose \texttt{ICE-Score}, a new evaluation
metric via instructing large language models (LLMs) for code assessments. Our
metric addresses the limitations of existing approaches by achieving superior
correlations with functional correctness and human preferences, without the
need for test oracles or references. We evaluate the efficacy of our metric on
two different aspects (\textit{human preference} and \textit{execution
success}) and four programming languages. Our results demonstrate that our
metric surpasses state-of-the-art metrics for code generation, delivering high
levels of accuracy and consistency across various programming languages and
tasks. We also make our evaluation metric and datasets available to the
public\footnote{\url{https://github.com/terryyz/ice-score}}, encouraging
further research in evaluating code intelligence tasks.
- Abstract(参考訳): 自然言語生成の分野における最近の進歩は、生成されたテキストの品質を評価するために、大規模な言語モデルの使用を促進した。
これらのモデルは機械翻訳や要約といったタスクで有望な結果を示しているが、コードインテリジェンスタスクへの適用性は人間の関与なしに制限されている。
このようなタスクに必要なプログラミング概念の複雑さは、人間の判断に沿う評価指標の開発を困難にしている。
BLEUのようなトークンマッチングベースのメトリクスは、コードインテリジェンスタスクにおける人間の実践者との弱い相関を示す。
また,低リソース領域では,人手によるテストスイートを用いて機能的正当性を評価することは困難である。
これらの障害を克服するために,コードアセスメントのための大規模言語モデル(LLM)を指示する新たな評価指標である‘texttt{ICE-Score} を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,オーラクルや参照を必要とせず,既存のアプローチの限界に対処する。
我々は,2つの異なる側面(\textit{human preference} と \textit{execution success} )と4つのプログラミング言語で測定値の有効性を評価する。
我々の測定値がコード生成の最先端の指標を超え、様々なプログラミング言語やタスクに対して高い精度と一貫性を提供することを示す。
また、評価基準とデータセットを public\footnote{\url{https://github.com/terryyz/ice-score}} に公開し、コードインテリジェンスタスクの評価に関するさらなる研究を奨励しています。
関連論文リスト
- Linguistics Theory Meets LLM: Code-Switched Text Generation via Equivalence Constrained Large Language Models [16.82812708514889]
1つの会話で2つ以上の言語を交互に交互に行うコードスイッチングは、自然言語処理(NLP)に特有の課題を提示する
既存の研究は構文的制約やニューラルジェネレーションに重点を置いており、言語理論を言語モデル(LLM)と統合して自然なコード変更テキストを生成する努力はほとんどない。
等価制約理論(ECT)とLLMを組み合わせた新しいフレームワークであるEZSwitchを導入する。
論文 参考訳(メタデータ) (2024-10-30T03:03:32Z) - On the Limitations of Embedding Based Methods for Measuring Functional Correctness for Code Generation [4.065344017083881]
CodeBERTScoreのような埋め込みベースのメトリクスを使って、機能的正確性や編集作業などの有用な構造を計測する能力を分析します。
その結果,機能的正当性(0.16)との相関は弱いものの,編集作業と強く相関している(0.72)ことがわかった。
論文 参考訳(メタデータ) (2024-04-26T15:54:39Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - GRUEN for Evaluating Linguistic Quality of Generated Text [17.234442722611803]
本稿では、文法性、非冗長性、focU、生成したテキストの構造とコヒーレンスを評価するためのGRUENを提案する。
GRUENはBERTベースのモデルと構文的、意味的、文脈的特徴のクラスを使用してシステム出力を調べる。
論文 参考訳(メタデータ) (2020-10-06T05:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。