論文の概要: OOP: Object-Oriented Programming Evaluation Benchmark for Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.06628v2
- Date: Wed, 21 Feb 2024 06:18:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 19:13:16.395269
- Title: OOP: Object-Oriented Programming Evaluation Benchmark for Large Language
Models
- Title(参考訳): OOP: 大規模言語モデルのオブジェクト指向プログラミング評価ベンチマーク
- Authors: Shuai Wang, Liang Ding, Li Shen, Yong Luo, Bo Du, Dacheng Tao
- Abstract要約: この研究では、431のPythonプログラムを特徴とするOOPにフォーカスした先駆的なベンチマークを紹介した。
本稿では、OOP用に調整された新しい評価基準であるpass@oを提案し、従来のpass@k対策を強化する。
- 参考スコア(独自算出の注目度): 85.73744378691727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancing automated programming necessitates robust and comprehensive code
generation benchmarks, yet current evaluation frameworks largely neglect
object-oriented programming (OOP) in favor of functional programming (FP),
e.g., HumanEval and MBPP. To address this, our study introduces a pioneering
OOP-focused benchmark, featuring 431 Python programs that encompass essential
OOP concepts and features like classes and encapsulation methods. We propose a
novel evaluation metric, pass@o, tailored for OOP, enhancing traditional pass@k
measures. Our evaluation of 23 leading large language models (LLMs), including
both general and code-specialized models, reveals three key insights: 1) pass@o
offers a more relevant and comprehensive assessment for OOP code generation; 2)
Despite excelling in FP, code-specialized LLMs like WizardCoder lag in OOP
compared to models like ChatGPT; 3) The poor performance of all advanced LLMs
on our OOP benchmark highlights a critical need for improvements in this field.
Our benchmark and scripts are publicly released at:
https://github.com/alphadl/OOP-eval.
- Abstract(参考訳): 自動プログラミングの適応は、堅牢で包括的なコード生成ベンチマークを必要とするが、現在の評価フレームワークは、関数型プログラミング(FP)、例えばHumanEvalやMBPPを優先してオブジェクト指向プログラミング(OOP)をほとんど無視している。
そこで本研究では,OOPの基本的な概念と,クラスやカプセル化メソッドといった機能を含む431のPythonプログラムを特徴とする,OOPにフォーカスした先駆的なベンチマークを紹介した。
本稿では、OOP用に調整された新しい評価基準であるpass@oを提案し、従来のpass@k対策を強化する。
汎用モデルとコード特化モデルを含む23大言語モデル(LLM)の評価では,3つの重要な洞察が得られた。
1) pass@oはOOPコード生成に関するより関連性があり包括的な評価を提供する。
2) FP が優れているにもかかわらず、OOP の WizardCoder のようなコード特化 LLM は ChatGPT のようなモデルに比べて遅延している。
3) OOPベンチマークにおける先進的なLLMの低パフォーマンスは、この分野において重要な改善の必要性を強調しています。
ベンチマークとスクリプトは、https://github.com/alphadl/oop-eval.com/で公開しています。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。
我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文 参考訳(メタデータ) (2024-11-15T12:01:38Z) - Deep Learning and Machine Learning, Advancing Big Data Analytics and Management: Object-Oriented Programming [17.98778771365221]
オブジェクト指向プログラミング(OOP)は、現代のソフトウェアシステムの複雑さの増大を管理するための重要なパラダイムになっています。
この作業は、これらのドメイン内でOOP技術を統合するための包括的な紹介を提供する。
機械学習システムの構造と効率を高めるために,設計パターンとモジュールプログラミングをどのように利用することができるかを検討する。
論文 参考訳(メタデータ) (2024-09-30T03:37:10Z) - LLMs Still Can't Avoid Instanceof: An Investigation Into GPT-3.5, GPT-4
and Bard's Capacity to Handle Object-Oriented Programming Assignments [0.0]
大規模言語モデル(LLM)は、プログラミング課題を解決しながら学生を支援するための有望なツールとして登場した。
本研究では,3つの卓越したLCMを用いて,実環境におけるOOPの課題を解決する実験を行った。
この結果から、モデルはエクササイズに対する動作可能なソリューションを多く達成する一方で、OOPのベストプラクティスを見落としていることが判明した。
論文 参考訳(メタデータ) (2024-03-10T16:40:05Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs [1.9207412600219353]
我々はPythonコード生成のベンチマークを2つ評価し、その多様性と難易度を分析した。
我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。
我々は,38のプログラミング概念をバランスよく表現した185個の手作りプロンプトを特徴とする新しいベンチマークPythonSagaを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:36:43Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - OPT-IML: Scaling Language Model Instruction Meta Learning through the
Lens of Generalization [101.37439352091612]
モデルサイズとベンチマークサイズの両方をスケールする際のダウンストリームタスク性能に対する命令チューニング決定の影響について述べる。
我々は、OPT-30Bに適用された命令調整決定に関する知見を提示し、さらにこれらの知見を活用して、OPTの命令調整版であるOPT-IML 30Bと175Bを訓練する。
論文 参考訳(メタデータ) (2022-12-22T19:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。