論文の概要: CodeBLEU: a Method for Automatic Evaluation of Code Synthesis
- arxiv url: http://arxiv.org/abs/2009.10297v2
- Date: Sun, 27 Sep 2020 04:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 22:41:41.304936
- Title: CodeBLEU: a Method for Automatic Evaluation of Code Synthesis
- Title(参考訳): CodeBLEU:コード合成の自動評価方法
- Authors: Shuo Ren, Daya Guo, Shuai Lu, Long Zhou, Shujie Liu, Duyu Tang, Neel
Sundaresan, Ming Zhou, Ambrosio Blanco, Shuai Ma
- Abstract要約: コード合成の分野では、一般的に使用される評価基準はBLEUまたは完全精度である。
我々はCodeBLEUと呼ばれる新しい自動評価指標を導入する。
n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
- 参考スコア(独自算出の注目度): 57.87741831987889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation metrics play a vital role in the growth of an area as it defines
the standard of distinguishing between good and bad models. In the area of code
synthesis, the commonly used evaluation metric is BLEU or perfect accuracy, but
they are not suitable enough to evaluate codes, because BLEU is originally
designed to evaluate the natural language, neglecting important syntactic and
semantic features of codes, and perfect accuracy is too strict thus it
underestimates different outputs with the same semantic logic. To remedy this,
we introduce a new automatic evaluation metric, dubbed CodeBLEU. It absorbs the
strength of BLEU in the n-gram match and further injects code syntax via
abstract syntax trees (AST) and code semantics via data-flow. We conduct
experiments by evaluating the correlation coefficient between CodeBLEU and
quality scores assigned by the programmers on three code synthesis tasks, i.e.,
text-to-code, code translation, and code refinement. Experimental results show
that our proposed CodeBLEU can achieve a better correlation with programmer
assigned scores compared with BLEU and accuracy.
- Abstract(参考訳): 評価指標は、良いモデルと悪いモデルの区別の標準を定義するため、地域の成長において重要な役割を果たす。
コード合成の分野では、一般的に用いられる評価基準はBLEUまたは完全精度であるが、BLEUは元々は自然言語を評価するために設計されており、コードの重要な構文的・意味的特徴を無視しており、完全精度が厳しすぎるため、異なる出力を同じ意味論理で過小評価する。
そこで我々は,CodeBLEUと呼ばれる新しい自動評価指標を導入する。
n-gramマッチングにおけるBLEUの強度を吸収し、抽象構文木(AST)やデータフローによるコードセマンティクスを通じてコード構文を注入する。
コードブレンとプログラマが割り当てた品質スコアの相関係数、すなわち、テキストからコードへの変換、コードリファインメントの3つのコード合成タスクについて評価して実験を行う。
実験の結果,提案するcodebleuはbleuと精度に比較して,プログラマが割り当てたスコアとの相関性が向上することがわかった。
関連論文リスト
- Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - Mercury: An Efficiency Benchmark for LLM Code Synthesis [41.59643329735528]
Mercuryは、Large Language Modelsコード合成タスクのコード効率を評価するために指定された最初のベンチマークである。
既存のベンチマークとは異なり、Mercuryは、正常化されたコード効率を測定するために、Beyond@Kという新しいメトリクスを統合している。
その結果,LLMは機能的に正しいコードを生成する能力を示すが,その効率性には大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-02-12T17:53:22Z) - Enhancing Code Intelligence Tasks with ChatGPT [17.712126698173535]
ChatGPTの生成したコメントは、人間の参照よりもコードに対するセマンティックな一貫性が優れていることを示している。
広く使われているデータセットであるCodeSearchNetを、ChatGPTで生成されたコメントで再構築します。
以上の結果から,ChatGPTによって事前訓練されたモデルは,コード要約,コード生成,コード翻訳タスクにおいて,そのモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-12-23T09:01:08Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code
Summarization [65.54811122644607]
新たなトレンドは、ニューラルモデルと外部知識を組み合わせることだ。
本稿では,バニラニューラルネットワークがより優れたコード要約を生成するのを支援するために,デコーダ側のトークンレベル検索強化機構について検討する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - CodeScore: Evaluating Code Generation by Learning Code Execution [34.08307174529496]
本稿では,3つの入力フォーマット上で生成されたコードの関数的正当性を推定する大規模言語モデル(LLM)ベースのCEMであるCodeScoreを提案する。
CodeScoreは、他のCEMと比較して58.87%の相関性を向上し、最先端のパフォーマンスを達成し、3つの入力フォーマットを効果的に扱う。
論文 参考訳(メタデータ) (2023-01-22T02:59:59Z) - Towards Computationally Verifiable Semantic Grounding for Language
Models [18.887697890538455]
本論文は、エンティティ関係三重項の集合として形式化された所望のセマンティックメッセージが与えられた条件モデル生成テキストとしてLMを概念化する。
LMを自動エンコーダに埋め込むと、出力が入力メッセージと同じ表現領域にあるセマンティック・フラエンシに出力を送り込む。
提案手法は,グリーディ検索のベースラインを大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-11-16T17:35:52Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。