Fugu-MT 論文翻訳(概要): ClassEval: A Manually-Crafted Benchmark for Evaluating LLMs on Class-level Code Generation

論文の概要: ClassEval: A Manually-Crafted Benchmark for Evaluating LLMs on Class-level Code Generation

arxiv url: http://arxiv.org/abs/2308.01861v2
Date: Mon, 14 Aug 2023 09:07:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 18:41:36.366001
Title: ClassEval: A Manually-Crafted Benchmark for Evaluating LLMs on Class-level Code Generation
Title（参考訳）: ClassEval: クラスレベルのコード生成におけるLLMの評価のための手作業ベンチマーク
Authors: Xueying Du, Mingwei Liu, Kaixin Wang, Hanlin Wang, Junwei Liu, Yixuan Chen, Jiayi Feng, Chaofeng Sha, Xin Peng, Yiling Lou
Abstract要約: まず,クラスレベルのPythonコード生成タスク100のクラスレベルのコード生成ベンチマークであるClassEvalを手作業で構築する。これに基づいて、クラスレベルのコード生成における11の最先端LCMの最初の研究を行う。
参考スコア（独自算出の注目度）: 16.786062027154394
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this work, we make the first attempt to evaluate LLMs in a more challenging code generation scenario, i.e. class-level code generation. We first manually construct the first class-level code generation benchmark ClassEval of 100 class-level Python code generation tasks with approximately 500 person-hours. Based on it, we then perform the first study of 11 state-of-the-art LLMs on class-level code generation. Based on our results, we have the following main findings. First, we find that all existing LLMs show much worse performance on class-level code generation compared to on standalone method-level code generation benchmarks like HumanEval; and the method-level coding ability cannot equivalently reflect the class-level coding ability among LLMs. Second, we find that GPT-4 and GPT-3.5 still exhibit dominate superior than other LLMs on class-level code generation, and the second-tier models includes Instruct-Starcoder, Instruct-Codegen, and Wizardcoder with very similar performance. Third, we find that generating the entire class all at once (i.e. holistic generation strategy) is the best generation strategy only for GPT-4 and GPT-3.5, while method-by-method generation (i.e. incremental and compositional) is better strategies for the other models with limited ability of understanding long instructions and utilizing the middle information. Lastly, we find the limited model ability of generating method-dependent code and discuss the frequent error types in generated classes. Our benchmark is available at https://github.com/FudanSELab/ClassEval.
Abstract（参考訳）: 本研究では,より困難なコード生成シナリオ,すなわちクラスレベルのコード生成において,llmを評価する最初の試みを行う。まず,100のクラスレベルのPythonコード生成タスクに対して,約500人時間で最初のクラスレベルのコード生成ベンチマークであるClassEvalを手作業で構築する。これに基づいて、クラスレベルのコード生成における11の最先端LCMの最初の研究を行う。以上の結果から,本症例は以下の結果を得た。まず、既存のLLMは、HumanEvalのようなスタンドアロンのメソッドレベルのコード生成ベンチマークに比べて、クラスレベルのコード生成のパフォーマンスがはるかに低いことが分かり、メソッドレベルのコーディング能力はLLM間のクラスレベルのコーディング能力を同等に反映できないことがわかった。第2に, GPT-4 と GPT-3.5 はクラスレベルのコード生成において他の LLM よりも優れており,第2階層モデルには,非常によく似た性能を持つ Instruct-Starcoder, Instruct-Codegen, Wizardcoder などがある。第3に,全クラスを一度に生成することはGPT-4とGPT-3.5でのみ最良の生成戦略であり,メソッド・バイ・メソッド・ジェネレーション(インクリメンタル・コンポジション)は長い命令を理解し,中間情報を利用する能力に制限のある他のモデルではより良い戦略である。最後に、メソッド依存のコードを生成する限定的なモデル能力を見つけ、生成されたクラスで頻繁なエラータイプについて論じる。ベンチマークはhttps://github.com/fudanselab/classevalで利用可能です。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
Performance Evaluation of General Purpose Large Language Models for Basic Linear Algebra Subprograms Code Generation [0.0]
我々は,CPU用BLASコード生成のための既存の汎用LLMの性能を評価する。定期的な名前しか与えられていない場合でも、正しいコードが生成できることがわかりました。また,OpenMP,SIMDベクトル化,キャッシュブロッキングによるスレッド並列化をある程度実装できることを確認した。
論文参考訳（メタデータ） (2025-07-07T06:33:59Z)
A Comprehensive Analysis on LLM-based Node Classification Algorithms [21.120619437937382]
我々はLarge Language Models (LLMs) を用いたノード分類のための包括的でテストベッドを開発する。 10のデータセット、8つのLLMベースのアルゴリズム、3つの学習パラダイムを含み、新しいメソッドとデータセットで簡単に拡張できるように設計されている。パフォーマンスに影響を与える重要な設定を決定するために、広範な実験、トレーニング、および2200以上のモデルの評価を行います。その結果, LLM法は半教師付き環境で従来の手法を著しく上回り, その利点は教師付き環境ではごくわずかである,という8つの知見が得られた。
論文参考訳（メタデータ） (2025-02-02T15:56:05Z)
Escalating LLM-based Code Translation Benchmarking into the Class-level Era [20.22104136730419]
ClassEval-Tは、Large Language Models (LLM)向けのクラスレベルのコード変換ベンチマークである。 ClassEvalをベースに構築されたClassEval-Tは、JavaとC++に拡張され、完全なコードサンプルとテストスイートが提供される。
論文参考訳（メタデータ） (2024-11-09T11:13:14Z)
Rethinking Code Refinement: Learning to Judge Code Efficiency [60.04718679054704]
大規模言語モデル(LLM)は、コードを理解して生成する素晴らしい能力を示しています。本稿では,2つの異なる符号間の効率を判定するために訓練されたコード言語モデルに基づく新しい手法を提案する。提案手法は,複数の改良ステップで複数のプログラミング言語に対して検証し,より効率的で少ないバージョンのコードの識別を効果的に行うことができることを示した。
論文参考訳（メタデータ） (2024-10-29T06:17:37Z)
Automatic Generation of Benchmarks and Reliable LLM Judgment for Code Tasks [0.8274693573069442]
この研究は、自動生成されたベンチマークを利用して、LaaJの実装を生成および評価する方法論を導入する。ベンチマークは、LaaJの開発と検証と、LaaJを使用してLLMコード関連ソリューションの検証とテストの両方に使用される。私たちのアプローチは、高品質なコードタスクソリューションの作成を可能にします。
論文参考訳（メタデータ） (2024-10-28T14:34:36Z)
Beyond Code Generation: Assessing Code LLM Maturity with Postconditions [9.521621889147362]
本稿では,ポストコンディショニング問題に基づく大規模言語モデルの成熟度モデルを提案する。 EvalPlusデータセットを条件付きテストベンチマークに拡張し、いくつかのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-07-19T08:34:30Z)
Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM [13.324171480106715]
EvoEvalは、既存のベンチマークを異なるターゲットドメインに進化させたプログラム合成ベンチマークスイートである。我々の研究では、HumanEvalのような標準ベンチマークで得られたハイパフォーマンスと比較して、パフォーマンスが大幅に低下していることが示されている。本稿では,リワードや微妙な変化に遭遇した場合の命令追従モデルの脆さなど,様々な知見を紹介する。
論文参考訳（メタデータ） (2024-03-28T03:10:39Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
PanGu-Coder2: Boosting Large Language Models for Code with Ranking Feedback [5.459517921633247]
本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
論文参考訳（メタデータ） (2023-07-27T15:28:29Z)
Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文参考訳（メタデータ） (2023-07-05T16:58:39Z)
WizardCoder: Empowering Code Large Language Models with Evol-Instruct [67.24653703564492]
WezardCoderは、複雑な命令の微調整でコードLLMをパワーアップする。私たちのモデルは、他のすべてのオープンソースコードLLMをかなり上回ります。
論文参考訳（メタデータ） (2023-06-14T15:18:48Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文参考訳（メタデータ） (2022-11-25T18:05:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。