論文の概要: ClassEval: A Manually-Crafted Benchmark for Evaluating LLMs on
Class-level Code Generation
- arxiv url: http://arxiv.org/abs/2308.01861v2
- Date: Mon, 14 Aug 2023 09:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 18:41:36.366001
- Title: ClassEval: A Manually-Crafted Benchmark for Evaluating LLMs on
Class-level Code Generation
- Title(参考訳): ClassEval: クラスレベルのコード生成におけるLLMの評価のための手作業ベンチマーク
- Authors: Xueying Du, Mingwei Liu, Kaixin Wang, Hanlin Wang, Junwei Liu, Yixuan
Chen, Jiayi Feng, Chaofeng Sha, Xin Peng, Yiling Lou
- Abstract要約: まず,クラスレベルのPythonコード生成タスク100のクラスレベルのコード生成ベンチマークであるClassEvalを手作業で構築する。
これに基づいて、クラスレベルのコード生成における11の最先端LCMの最初の研究を行う。
- 参考スコア(独自算出の注目度): 16.786062027154394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we make the first attempt to evaluate LLMs in a more
challenging code generation scenario, i.e. class-level code generation. We
first manually construct the first class-level code generation benchmark
ClassEval of 100 class-level Python code generation tasks with approximately
500 person-hours. Based on it, we then perform the first study of 11
state-of-the-art LLMs on class-level code generation. Based on our results, we
have the following main findings. First, we find that all existing LLMs show
much worse performance on class-level code generation compared to on standalone
method-level code generation benchmarks like HumanEval; and the method-level
coding ability cannot equivalently reflect the class-level coding ability among
LLMs. Second, we find that GPT-4 and GPT-3.5 still exhibit dominate superior
than other LLMs on class-level code generation, and the second-tier models
includes Instruct-Starcoder, Instruct-Codegen, and Wizardcoder with very
similar performance. Third, we find that generating the entire class all at
once (i.e. holistic generation strategy) is the best generation strategy only
for GPT-4 and GPT-3.5, while method-by-method generation (i.e. incremental and
compositional) is better strategies for the other models with limited ability
of understanding long instructions and utilizing the middle information.
Lastly, we find the limited model ability of generating method-dependent code
and discuss the frequent error types in generated classes. Our benchmark is
available at https://github.com/FudanSELab/ClassEval.
- Abstract(参考訳): 本研究では,より困難なコード生成シナリオ,すなわちクラスレベルのコード生成において,llmを評価する最初の試みを行う。
まず,100のクラスレベルのPythonコード生成タスクに対して,約500人時間で最初のクラスレベルのコード生成ベンチマークであるClassEvalを手作業で構築する。
これに基づいて、クラスレベルのコード生成における11の最先端LCMの最初の研究を行う。
以上の結果から,本症例は以下の結果を得た。
まず、既存のLLMは、HumanEvalのようなスタンドアロンのメソッドレベルのコード生成ベンチマークに比べて、クラスレベルのコード生成のパフォーマンスがはるかに低いことが分かり、メソッドレベルのコーディング能力はLLM間のクラスレベルのコーディング能力を同等に反映できないことがわかった。
第2に, GPT-4 と GPT-3.5 はクラスレベルのコード生成において他の LLM よりも優れており,第2階層モデルには,非常によく似た性能を持つ Instruct-Starcoder, Instruct-Codegen, Wizardcoder などがある。
第3に,全クラスを一度に生成することはGPT-4とGPT-3.5でのみ最良の生成戦略であり,メソッド・バイ・メソッド・ジェネレーション(インクリメンタル・コンポジション)は長い命令を理解し,中間情報を利用する能力に制限のある他のモデルではより良い戦略である。
最後に、メソッド依存のコードを生成する限定的なモデル能力を見つけ、生成されたクラスで頻繁なエラータイプについて論じる。
ベンチマークはhttps://github.com/fudanselab/classevalで利用可能です。
関連論文リスト
- Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM [13.324171480106715]
EvoEvalは、既存のベンチマークを異なるターゲットドメインに進化させたプログラム合成ベンチマークスイートである。
我々の研究では、HumanEvalのような標準ベンチマークで得られたハイパフォーマンスと比較して、パフォーマンスが大幅に低下していることが示されている。
本稿では,リワードや微妙な変化に遭遇した場合の命令追従モデルの脆さなど,様々な知見を紹介する。
論文 参考訳(メタデータ) (2024-03-28T03:10:39Z) - JumpCoder: Go Beyond Autoregressive Coder via Online Modification [20.314345969604926]
既存のコード大言語モデル(コードLLM)は、コード生成において優れた機能を示すが、可逆性はない。
オンライン修正と非逐次生成を可能とし,LLMを拡張可能な新しいモデル診断フレームワークであるJumpCoderを紹介した。
JumpCoderは、Python用Pass@1の最大3.6%増加、Java用6.3%、マルチ言語HumanEvalベンチマーク用C++用3.7%のコードLLMをサポートする。
論文 参考訳(メタデータ) (2024-01-15T18:04:29Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Evaluating Instruction-Tuned Large Language Models on Code Comprehension
and Generation [4.310519298899164]
本研究では,4つの代表的コード理解および生成タスクに対して,オープンソースのLLMを10個評価する。
ゼロショット設定では、命令されたLLMはコード理解と生成タスクに非常に競合する。
数ショット設定では,実演例の追加がLLMの性能向上に有効であることが判明した。
論文 参考訳(メタデータ) (2023-08-02T15:54:22Z) - PanGu-Coder2: Boosting Large Language Models for Code with Ranking
Feedback [5.459517921633247]
本稿では,コード生成のための事前学習された大規模言語モデルを効果的かつ効率的に向上するRRTF(Rank Responses toaligned Test&Teacher Feedback)フレームワークを提案する。
このフレームワークでは、OpenAI HumanEvalベンチマークで62.20%パス@1を達成したPanGu-Coder2を紹介します。
論文 参考訳(メタデータ) (2023-07-27T15:28:29Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - WizardCoder: Empowering Code Large Language Models with Evol-Instruct [67.24653703564492]
WezardCoderは、複雑な命令の微調整でコードLLMをパワーアップする。
私たちのモデルは、他のすべてのオープンソースコードLLMをかなり上回ります。
論文 参考訳(メタデータ) (2023-06-14T15:18:48Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of
Large Language Models for Code Generation [20.45045253933097]
LLM合成コードの機能的正しさを厳格に評価するコード合成評価フレームワークであるEvalPlusを提案する。
EvalPlusは、自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張する。
我々は、HumanEval+が、これまで検出されていなかった大量の間違ったコードをキャッチできることを示します。
論文 参考訳(メタデータ) (2023-05-02T05:46:48Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。