Fugu-MT 論文翻訳(概要): HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

論文の概要: HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

arxiv url: http://arxiv.org/abs/2412.21199v1
Date: Mon, 30 Dec 2024 18:58:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.854747
Title: HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation
Title（参考訳）: HumanEval ProとMBPP Pro: 自己起動コード生成における大規模言語モデルの評価
Authors: Zhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang,
Abstract要約: LLMの進行的推論と問題解決能力を評価するための新しいタスクである自己呼び出しコード生成を導入する。ほとんどのLLMは、HumanEvalやMBPPといった従来のコード生成ベンチマークで優れているが、自己呼び出しタスクのパフォーマンスは低下している。
参考スコア（独自算出の注目度）: 28.295580042013547
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce self-invoking code generation, a new task designed to evaluate the progressive reasoning and problem-solving capabilities of LLMs. In this task, models are presented with a base problem and a related, more complex problem. They must solve the base problem and then utilize its solution to address the more complex one. This work features three key contributions. First, we propose a general recipe for generating more challenging versions of existing benchmarks, resulting in three new benchmarks: HumanEval Pro, MBPP Pro, and BigCodeBench-Lite Pro, specifically designed to assess LLMs on self-invoking code generation. Second, from the analysis of experimental results over twenty LLMs on our benchmarks, we have two important observations: (i) Most LLMs excel in traditional code generation benchmarks like HumanEval and MBPP, but their performance declines on self-invoking tasks. For example, o1-mini achieves 96.2% pass@1 on HumanEval but only 76.2% on HumanEval Pro. (ii) On self-invoking code generation task, the instruction-tuned models demonstrate only marginal improvements compared to the base models. Third, we disclose the types of failure modes that exist in our evaluation results. All these results underscore the need for further advancements in self-invoking code generation tasks and provide a new direction for future research on enhancing LLMs' code reasoning capabilities.
Abstract（参考訳）: LLMの進行的推論と問題解決能力を評価するための新しいタスクである自己呼び出しコード生成を導入する。このタスクでは、モデルには基礎問題と関連するより複雑な問題が提示される。彼らは基本問題を解き、その解を使ってより複雑な問題に対処しなければならない。この作品には3つの重要な貢献がある。まず,HumanEval Pro,MBPP Pro,BigCodeBench-Lite Proの3つのベンチマーク結果から,自己呼び出しコード生成におけるLSMの評価に特化して設計された,既存のベンチマークのより困難なバージョンを生成するための一般的なレシピを提案する。第2に,20 LLM以上の実験結果の解析から,2つの重要な観察結果を得た。 (i)ほとんどのLLMは、HumanEvalやMBPPといった従来のコード生成ベンチマークに優れていますが、自己呼び出しタスクのパフォーマンスは低下します。例えば、o1-miniはHumanEvalで96.2%のpass@1を達成するが、HumanEval Proで76.2%しか達成していない。 (ii) 自己呼び出しコード生成タスクでは, 命令調整モデルでは, 基本モデルに比べて限界的な改善しか示さない。第3に、評価結果に存在する障害モードの種類を明らかにします。これらの結果は、自己起動型コード生成タスクのさらなる進歩の必要性を浮き彫りにし、将来のLLMのコード推論能力向上に向けた新たな研究の方向性を提供する。

関連論文リスト

Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。 SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文参考訳（メタデータ） (2025-06-12T15:52:32Z)
Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.289275189295223]
本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文参考訳（メタデータ） (2025-05-29T19:06:14Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
How to Get Your LLM to Generate Challenging Problems for Evaluation [33.625052642068624]
CHASEは、大規模言語モデルを用いて、難しい問題を合成的に生成する統合フレームワークである。評価ベンチマークを作成するためにCHASEを実装している。これらのベンチマークにおける最先端のLCMの性能は、40-60%の精度の範囲にある。
論文参考訳（メタデータ） (2025-02-20T16:09:55Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
The RealHumanEval: Evaluating Large Language Models' Abilities to Support Programmers [44.28269395385471]
既存のベンチマークや、より好ましいLCM応答が、LLMでコーディングする際のプログラマの生産性に変換されるかどうかを調査する。プログラマを支援するための LLM の能力を測定するための Web インターフェースである RealHumanEval を紹介する。人間をループに組み込まない静的なベンチマークにもかかわらず、ベンチマークパフォーマンスの改善は、プログラマの生産性を向上させる。
論文参考訳（メタデータ） (2024-04-03T15:20:57Z)
CYCLE: Learning to Self-Refine the Code Generation [19.71833229434497]
本稿では,CYCLEフレームワークを提案する。 350M, 1B, 2B, 3B のベンチマークで, パラメータ数が異なる CYCLE の4つの変種を実装した。その結果、CYCLEは一度のコード生成の品質を維持し、時には改善すると同時に、コードLMの自己抑制能力を大幅に改善することがわかった。
論文参考訳（メタデータ） (2024-03-27T16:45:02Z)
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code [34.03774442237902]
コード関連アプリケーションに適用される大規模言語モデルは、顕著な分野として現れている。既存の評価ベンチマーク(HumanEval、MBPPなど)は、もはやその能力を評価するには不十分である。コードに対するLLMの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
論文参考訳（メタデータ） (2024-03-12T17:58:04Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。