論文の概要: MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation
- arxiv url: http://arxiv.org/abs/2405.11430v2
- Date: Mon, 04 Nov 2024 12:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:41:18.981713
- Title: MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation
- Title(参考訳): MHPP: 基本コード生成を超える言語モデルの能力と限界を探る
- Authors: Jianbo Dai, Jianqiao Lu, Yunlong Feng, Dong Huang, Guangtao Zeng, Rongju Ruan, Ming Cheng, Haochen Tan, Zhijiang Guo,
- Abstract要約: 大規模言語モデル(LLM)は、特に関数レベルでコード生成を大幅に改善した。
そこで本研究では,HumanEvalとMBPPの2つの共通ベンチマークを解析し,LLMのコード生成能力を十分に評価できないことを示した。
これを解決するために、210の独特な人為的問題からなるMostly Hard Python Problemsデータセットを紹介した。
- 参考スコア(独自算出の注目度): 18.1643331912182
- License:
- Abstract: Recent advancements in large language models (LLMs) have greatly improved code generation, specifically at the function level. For instance, GPT-4o has achieved a 91.0\% pass rate on HumanEval. However, this draws into question the adequacy of existing benchmarks in thoroughly assessing function-level code generation capabilities. Our study analyzed two common benchmarks, HumanEval and MBPP, and found that these might not thoroughly evaluate LLMs' code generation capacities due to limitations in quality, difficulty, and granularity. To resolve this, we introduce the Mostly Hard Python Problems (MHPP) dataset, consisting of 210 unique human-curated problems. By focusing on the combination of natural language and code reasoning, MHPP gauges LLMs' abilities to comprehend specifications and restrictions, engage in multi-step reasoning, and apply coding knowledge effectively. Initial evaluations of 26 LLMs using MHPP showed many high-performing models on HumanEval failed to achieve similar success on MHPP. Moreover, MHPP highlighted various previously undiscovered limitations within various LLMs, leading us to believe that it could pave the way for a better understanding of LLMs' capabilities and limitations. MHPP, evaluation pipeline, and leaderboard can be found in https://github.com/SparksofAGI/MHPP.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、特に関数レベルでコード生成を大幅に改善した。
例えば、GPT-4oはHumanEvalで91.0\%のパスレートを達成した。
しかし、これは関数レベルのコード生成能力を徹底的に評価する既存のベンチマークの妥当性に疑問を呈する。
本研究では,HumanEval と MBPP の2つの共通ベンチマークを解析し,LLM のコード生成能力は品質,難易度,粒度に制限があるため,十分に評価できないことを示した。
そこで本研究では,MHPP(Mostly Hard Python Problems)データセットについて紹介する。
自然言語とコード推論の組み合わせに焦点を当てることで、MHPPはLLMの仕様と制約を理解し、多段階推論を行い、コーディング知識を効果的に適用する能力を評価する。
MHPP を用いた26 LLM の初期評価では,HumanEval 上での高性能モデルは MHPP でも同様に成功しなかった。
さらに、MHPPは、これまで発見されていなかった様々な LLM の制限を強調し、LLM の能力と限界をよりよく理解するための道を開くことができると信じた。
MHPP、評価パイプライン、リーダーボードはhttps://github.com/SparksofAGI/MHPPにある。
関連論文リスト
- Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation [28.295580042013547]
LLMの進行的推論と問題解決能力を評価するための新しいタスクである自己呼び出しコード生成を導入する。
ほとんどのLLMは、HumanEvalやMBPPといった従来のコード生成ベンチマークで優れているが、自己呼び出しタスクのパフォーマンスは低下している。
論文 参考訳(メタデータ) (2024-12-30T18:58:58Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Exploring the Zero-Shot Capabilities of LLMs Handling Multiple Problems at once [9.173325772800341]
各種LLMのゼロショットMPP性能を6分類と12の推論ベンチマークで検討した。
LLMは、与えられたクラスラベルのテキストのインデックスの選択と、複数の混合ソース推論問題により、一貫して悪化する。
論文 参考訳(メタデータ) (2024-06-16T02:52:32Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs [1.9207412600219353]
我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。
我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。
我々は,38のプログラミング概念をバランスよく表現した185個の手作りプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:36:43Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。
5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。
実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文 参考訳(メタデータ) (2023-10-03T01:26:39Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。