論文の概要: CodeJudge-Eval: Can Large Language Models be Good Judges in Code Understanding?
- arxiv url: http://arxiv.org/abs/2408.10718v1
- Date: Tue, 20 Aug 2024 10:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:04:52.044091
- Title: CodeJudge-Eval: Can Large Language Models be Good Judges in Code Understanding?
- Title(参考訳): CodeJudge-Eval: 大規模言語モデルはコード理解の優れた判断者になれるか?
- Authors: Yuwei Zhao, Ziyang Luo, Yuchen Tian, Hongzhan Lin, Weixiang Yan, Annan Li, Jing Ma,
- Abstract要約: 我々は,大規模言語モデルのコード理解能力を評価するための新しいベンチマークであるCodeJudge-Evalを紹介する。
きめ細かい判断システムを活用することで、CJ-Evalは従来のベンチマークの限界に対処する。
CJ-Evalでよく知られた12個のLCMの評価は、最先端のモデルでさえ苦戦していることを示している。
- 参考スコア(独自算出の注目度): 18.67932455052577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have showcased impressive code generation capabilities, primarily evaluated through language-to-code benchmarks. However, these benchmarks may not fully capture a model's code understanding abilities. We introduce CodeJudge-Eval (CJ-Eval), a novel benchmark designed to assess LLMs' code understanding abilities from the perspective of code judging rather than code generation. CJ-Eval challenges models to determine the correctness of provided code solutions, encompassing various error types and compilation issues. By leveraging a diverse set of problems and a fine-grained judging system, CJ-Eval addresses the limitations of traditional benchmarks, including the potential memorization of solutions. Evaluation of 12 well-known LLMs on CJ-Eval reveals that even state-of-the-art models struggle, highlighting the benchmark's ability to probe deeper into models' code understanding abilities. Our benchmark will be available at \url{https://github.com/CodeLLM-Research/CodeJudge-Eval}.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は印象的なコード生成能力を示しており、主に言語間ベンチマークによって評価されている。
しかし、これらのベンチマークはモデルのコード理解能力を十分に捉えていないかもしれない。
コード生成ではなくコード判断の観点からLLMのコード理解能力を評価するために設計された新しいベンチマークであるCodeJudge-Eval(CJ-Eval)を紹介する。
CJ-Evalは、様々なエラータイプやコンパイル問題を含む、提供されたコードソリューションの正確性を決定するためにモデルに挑戦する。
様々な問題ときめ細かい判断システムを活用することで、CJ-Evalはソリューションの暗記を含む従来のベンチマークの限界に対処する。
CJ-Evalでよく知られた12のLCMの評価は、最先端のモデルでさえ苦戦し、ベンチマークがモデルのコード理解能力を深く調査する能力を強調していることを示している。
私たちのベンチマークは \url{https://github.com/CodeLLM-Research/CodeJudge-Eval} で公開されます。
関連論文リスト
- Beyond Code Generation: Assessing Code LLM Maturity with Postconditions [9.521621889147362]
本稿では,ポストコンディショニング問題に基づく大規模言語モデルの成熟度モデルを提案する。
EvalPlusデータセットを条件付きテストベンチマークに拡張し、いくつかのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-07-19T08:34:30Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Beyond Functional Correctness: Investigating Coding Style Inconsistencies in Large Language Models [28.295926947968574]
大規模言語モデル(LLM)は、コード生成の分野にパラダイムシフトをもたらした。
我々は、コードLLMによって生成されたコードと、人間の開発者が書いたコードとのコーディングスタイルの違いを経験的に分析する。
論文 参考訳(メタデータ) (2024-06-29T14:56:11Z) - LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code [34.03774442237902]
コード関連アプリケーションに適用される大規模言語モデルは、顕著な分野として現れている。
既存の評価ベンチマーク(HumanEval、MBPPなど)は、もはやその能力を評価するには不十分である。
コードに対するLLMの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
論文 参考訳(メタデータ) (2024-03-12T17:58:04Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs [1.9207412600219353]
我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。
我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。
我々は,38のプログラミング概念をバランスよく表現した185個の手作りプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:36:43Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。