論文の概要: Out of the BLEU: how should we assess quality of the Code Generation
models?
- arxiv url: http://arxiv.org/abs/2208.03133v1
- Date: Fri, 5 Aug 2022 13:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 13:16:41.101748
- Title: Out of the BLEU: how should we assess quality of the Code Generation
models?
- Title(参考訳): BLEUの概要:コード生成モデルの品質を評価するにはどうすればいいのか?
- Authors: Mikhail Evtikhiev, Egor Bogomolov, Yaroslav Sokolov, Timofey Bryksin
- Abstract要約: 本稿では,コード生成モデルの評価に,BLEU,ROUGE-L,METEOR,ChrF,CodeBLEU,RUBYの6つのメトリクスの適用性について検討する。
2つの異なるコード生成データセットの研究を行い、人間のアノテータを使用して、これらのデータセット上で実行されるすべてのモデルの品質を評価する。
- 参考スコア(独自算出の注目度): 3.699097874146491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, researchers have created and introduced a significant number
of various code generation models. As human evaluation of every new model
version is unfeasible, the community adopted automatic evaluation metrics such
as BLEU to approximate the results of human judgement. These metrics originate
from the machine translation domain and it is unclear whether they are
applicable for the code generation tasks and how well do they agree with the
human evaluation on this task. There also are two metrics, CodeBLEU and RUBY,
that were developed to estimate the similarity of code and take into account
the code properties. However, for these metrics there are hardly any studies on
their agreement with the human evaluation. Despite all that, minimal
differences in the metric scores are used to claim superiority of some code
generation models over the others.
In this paper, we present a study on applicability of six metrics -- BLEU,
ROUGE-L, METEOR, ChrF, CodeBLEU, RUBY -- for evaluation of the code generation
models. We conduct a study on two different code generation datasets and use
human annotators to assess the quality of all models run on these datasets. The
results indicate that for the CoNaLa dataset of Python one-liners none of the
metrics can correctly emulate human judgement on which model is better with
$>95\%$ certainty if the difference in model scores is less than 5 points. For
the HearthStone dataset, which consists of classes of particular structure, the
difference in model scores of at least 2 points is enough to claim the
superiority of one model over the other. Using our findings, we derive several
recommendations on using metrics to estimate the model performance on the code
generation task.
- Abstract(参考訳): 近年、研究者は多数のコード生成モデルを作成し、導入している。
新しいモデル版の人間による評価は不可能であるため、コミュニティは人的判断の結果を近似するためにBLEUのような自動評価指標を採用した。
これらのメトリクスは、機械翻訳ドメインに由来するもので、コード生成タスクに適用できるのか、また、このタスクの人間による評価にどの程度よく一致するのかは不明です。
また、CodeBLEUとRUBYという2つのメトリクスがあり、コードの類似性を推定し、コードプロパティを考慮するために開発された。
しかし、これらの指標について、人的評価との合意についての研究はほとんどない。
それにもかかわらず、メトリクススコアのわずかな違いは、他のコード生成モデルよりも優れていると主張するために使われます。
本稿では,コード生成モデルの評価に,BLEU, ROUGE-L, METEOR, ChrF, CodeBLEU, RUBYの6つのメトリクスの適用性について検討する。
2つの異なるコード生成データセットの研究を行い、人間のアノテータを使用して、これらのデータセット上で実行されるすべてのモデルの品質を評価する。
結果は、python one-linerのconalaデータセットでは、モデルスコアの差が5ポイント未満であれば、どのモデルが良いかの判断を、95\%$で正しくエミュレートできないことを示している。
特定の構造のクラスで構成されるHearthStoneデータセットの場合、少なくとも2点のモデルスコアの違いは、一方が他方よりも優れていると主張するのに十分である。
この結果から,メトリクスを用いてコード生成タスクのモデル性能を推定するいくつかの推奨事項を導出する。
関連論文リスト
- Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Method-Level Bug Severity Prediction using Source Code Metrics and LLMs [0.628122931748758]
本稿では,ソースコードのメトリクス,大言語モデル(LLM)を用いたソースコード表現,およびバグ重大度ラベルの予測におけるそれらの組み合わせについて検討する。
以上の結果から,決定木モデルとランダムフォレストモデルは,いくつかの評価指標に関して,他のモデルよりも優れていたことが示唆された。
CodeBERTの微調整により、いくつかの評価指標の29%-140%の範囲でバグの重大度予測が大幅に改善される。
論文 参考訳(メタデータ) (2023-09-06T14:38:07Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - Code to Comment Translation: A Comparative Study on Model Effectiveness
& Errors [19.653423881863834]
機械翻訳モデルは、コードスニペットを関連する自然言語記述に"翻訳"するために使用される。
このようなモデルのほとんどの評価は、自動参照ベースメトリクスを用いて行われる。
本稿では,スムーズなBLEU-4, METEOR, ROUGE-L機械翻訳指標に基づくソースコード要約モデルを提案する。
実験によって得られた誤り分類において,メトリックベース性能とモデル予測誤差の関係について新たな知見が得られた。
論文 参考訳(メタデータ) (2021-06-15T20:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。