Fugu-MT 論文翻訳(概要): Benchmarks and Metrics for Evaluations of Code Generation: A Critical Review

論文の概要: Benchmarks and Metrics for Evaluations of Code Generation: A Critical Review

arxiv url: http://arxiv.org/abs/2406.12655v1
Date: Tue, 18 Jun 2024 14:25:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 18:38:36.958110
Title: Benchmarks and Metrics for Evaluations of Code Generation: A Critical Review
Title（参考訳）: コード生成の評価のためのベンチマークとメトリクス:批判的レビュー
Authors: Debalina Ghosh Paul, Hong Zhu, Ian Bayley,
Abstract要約: 大言語モデル(LLM)は、自然言語入力からプログラムコードを生成することを含むプログラミングタスクを支援するために開発された。本稿では、これらのツールのテストおよび評価に関する既存の研究について批判的なレビューを行う。
参考スコア（独自算出の注目度）: 4.181146104301203
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapid development of Large Language Models (LLMs), a large number of machine learning models have been developed to assist programming tasks including the generation of program code from natural language input. However, how to evaluate such LLMs for this task is still an open problem despite of the great amount of research efforts that have been made and reported to evaluate and compare them. This paper provides a critical review of the existing work on the testing and evaluation of these tools with a focus on two key aspects: the benchmarks and the metrics used in the evaluations. Based on the review, further research directions are discussed.
Abstract（参考訳）: LLM(Large Language Models)の急速な開発に伴い、自然言語入力からプログラムコードを生成することを含むプログラミングタスクを支援する機械学習モデルが多数開発されている。しかし,このようなLCMの課題に対する評価方法はまだ未解決の課題であり,その評価・比較に大量の研究成果が報告されているにもかかわらず,まだ未解決の課題である。本稿では、これらのツールのテストと評価に関する既存の研究について、ベンチマークと評価に使用されるメトリクスの2つの重要な側面に焦点をあてて、批判的なレビューを行う。レビューに基づき、さらなる研究の方向性について論じる。

関連論文リスト

A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era [10.935053388447372]
コードレビューは、開発者が欠陥を早期に検出し、コード品質を改善し、知識共有を促進するのに役立つ、現代のソフトウェアエンジニアリングにおける重要なプラクティスである。大規模言語モデル(LLM)の急速な進歩により、コードレビューの自動化サポートについて研究が進められている。現在のコードレビューデータセットは散在しており、設計は様々であり、レビュー機能が実際に評価されているかについての限られた洞察を提供する。
論文参考訳（メタデータ） (2026-02-13T18:19:38Z)
CodeEval: A pedagogical approach for targeted evaluation of code-trained Large Language Models [0.0]
大規模言語モデル(LLM)は、その常識的推論、言語理解、論理的推論能力に基づいて主に評価される。既存のベンチマークデータセットは、特定の強度と弱点を特定できない。我々は,Python プログラミングの 24 つの異なる側面にわたる LLM を厳格に評価するために設計された多次元ベンチマークデータセットである CodeEval を紹介した。
論文参考訳（メタデータ） (2026-01-06T21:42:01Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
A Preliminary Study of Multilingual Code Language Models for Code Generation Task Using Translated Benchmarks [0.0]
コード生成のために構築されたオープンソースの多言語CLMであるPoly-Coderの性能を評価する。以上の結果から,これらのベンチマークで得られた結果は,トレーニングフェーズで使用する評価指標とよく一致していることがわかった。これらの初期の洞察は、より包括的な実証研究の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-11-23T06:40:47Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文参考訳（メタデータ） (2024-08-29T12:56:06Z)
Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks [3.773596042872403]
大規模言語モデル(LLM)は進化を続けており、堅牢で標準化された評価ベンチマークの必要性が最重要である。さまざまなフレームワークがこの分野への注目すべき貢献として現れ、包括的な評価テストとベンチマークを提供している。本稿では,これらの評価手法の探索と批判的分析を行い,その強度,限界,および自然言語処理における最先端の進展に対する影響について述べる。
論文参考訳（メタデータ） (2024-07-29T03:37:14Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文参考訳（メタデータ） (2024-05-23T16:50:49Z)
Benchmarking Educational Program Repair [4.981275578987307]
大きな言語モデル(LLM)は、学習リソースの生成、エラーメッセージの改善、コードに対するフィードバックの提供に使用することができる。競合するアプローチの公平な比較を容易にするため、標準化とベンチマークが強く求められている。本稿では,新しい教育プログラム修復ベンチマークを提案する。
論文参考訳（メタデータ） (2024-05-08T18:23:59Z)
Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文参考訳（メタデータ） (2024-04-10T02:46:08Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。