論文の概要: A Multi-Language Object-Oriented Programming Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.26111v1
- Date: Tue, 30 Sep 2025 11:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.520931
- Title: A Multi-Language Object-Oriented Programming Benchmark for Large Language Models
- Title(参考訳): 大規模言語モデルのための多言語オブジェクト指向プログラミングベンチマーク
- Authors: Shuai Wang, Liang Ding, Li Shen, Yong Luo, Han Hu, Lefei Zhang, Fu Lin,
- Abstract要約: 35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。
85.7%は単一のプログラミング言語に重点を置いている。
94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。
80%以上は平均10件未満のテストケースを含む。
- 参考スコア(独自算出の注目度): 61.267115598083315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Establishing fair and robust benchmarks is essential for evaluating intelligent code generation by large language models (LLMs). Our survey of 35 existing benchmarks uncovers three major imbalances: 85.7% focus on a single programming language; 94.3% target only function-level or statement-level tasks; and over 80% include fewer than ten test cases on average. To address these gaps, we propose MultiOOP, a multi-language object-oriented programming benchmark covering six popular languages (Python, PHP, C++, C#, Java, JavaScript) with 267 tasks per language. We design a translator that extends an existing single-language OOP benchmark and the pass@o metric to a multilingual setting. Moreover, we propose an automated framework for augmenting test cases to ensure the reliability of the evaluation results. We evaluate 14 mainstream LLMs under zero-shot prompting and report three key findings: 1) Substantial performance degradation: pass@1 scores on MultiOOP drop by up to 65.6 percentage points compared to function-level tasks (e.g., HumanEval). 2) Cross-language variability: GPT-4o mini achieves pass@1 of 48.06% in Python but only 0.12%-15.26% in other languages, indicating limited multilingual generalization. 3) Conceptual gaps: pass@o scores are consistently 1.1-19.2 points lower than pass@k, demonstrating that LLMs often generate executable code without fully capturing core OOP concepts. Our benchmark, metric extensions, and evaluation scripts will be publicly released to foster a more balanced and comprehensive assessment of LLMs in object-oriented code generation. Our code and data will be released at https://github.com/alphadl/OOP-eval and https://huggingface.co/datasets/codeai-dteam/MultiOOP respectively.
- Abstract(参考訳): 公正で堅牢なベンチマークを確立することは、大規模言語モデル(LLM)によるインテリジェントなコード生成を評価する上で不可欠である。
85.7%は1つのプログラミング言語に焦点を当てており、94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としており、80%以上は平均で10件未満のテストケースを含んでいる。
これらのギャップに対処するため、MultiOOPは、Python、PHP、C++、C#、Java、JavaScriptの6つの人気のある言語を1言語あたり267タスクでカバーする、多言語オブジェクト指向プログラミングベンチマークである。
既存の単言語OOPベンチマークとpass@oメトリックを多言語設定に拡張するトランスレータを設計する。
また,評価結果の信頼性を確保するために,テストケースを拡張するための自動フレームワークを提案する。
ゼロショットプロンプトで14個の主要LCMを評価し,3つの重要な知見を報告する。
1) 機能レベルのタスク(例えば、HumanEval)と比較して、MultiOOPでのpass@1スコアは65.6ポイントまで減少します。
2) 言語間の可変性: GPT-4o miniはPythonで48.06%のパス@1を達成するが、他の言語では0.12%-15.26%しかなく、多言語一般化に制限がある。
3) 概念的ギャップ: pass@oスコアはpass@kよりも一貫して1.1-19.2ポイント低い。
我々のベンチマーク、メトリック拡張、評価スクリプトは、オブジェクト指向コード生成におけるLCMのよりバランスよく包括的な評価を促進するために公開されます。
私たちのコードとデータは、それぞれhttps://github.com/alphadl/OOP-evalとhttps://huggingface.co/datasets/codeai-dteam/MultiOOPでリリースされます。
関連論文リスト
- MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language [26.88208349402451]
本稿では,大規模言語モデルの多言語生成能力を評価する新しいフレームワークMUG-Evalを提案する。
既存のベンチマークを会話タスクに変換し、それらのタスクに対するLCMの精度を測定します。
高、中、低リソースのカテゴリにまたがる30言語にわたる8つのLLMを評価し、MUG-Evalが確立されたベンチマークと強く相関していることを見出した。
論文 参考訳(メタデータ) (2025-05-20T14:14:00Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Measuring The Impact Of Programming Language Distribution [28.96076723773365]
我々は,任意の言語におけるベンチマークの実行ベースの評価を行うためのBabelCodeフレームワークを提案する。
我々は Translating Python Programming Puzzles (TP3) と呼ばれる新しいコード翻訳データセットを提案する。
トレーニングデータセットにおける14の言語分布のバランスをとることで,低リソース言語における大規模言語モデルの性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-02-03T19:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。