論文の概要: CodeMixBench: Evaluating Large Language Models on Code Generation with Code-Mixed Prompts
- arxiv url: http://arxiv.org/abs/2505.05063v1
- Date: Thu, 08 May 2025 08:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.814453
- Title: CodeMixBench: Evaluating Large Language Models on Code Generation with Code-Mixed Prompts
- Title(参考訳): CodeMixBench: Code-Mixed Promptsによるコード生成における大規模言語モデルの評価
- Authors: Manik Sheokand, Parth Sawant,
- Abstract要約: 我々は,コード混合プロンプトからコードを生成する上で,大規模言語モデル(LLM)の堅牢性を評価するための新しいベンチマークであるCodeMixBenchを紹介する。
1.5Bパラメータから15Bパラメータまで,さまざまなオープンソースコード生成モデルを包括的に評価した。
その結果、コード混合プロンプトは、英語のみのプロンプトに比べて、常にPass@1のパフォーマンスを低下させることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success in code generation tasks, powering various applications like code completion, debugging, and programming assistance. However, existing benchmarks such as HumanEval, MBPP, and BigCodeBench primarily evaluate LLMs on English-only prompts, overlooking the real-world scenario where multilingual developers often use code-mixed language while interacting with LLMs. To address this gap, we introduce CodeMixBench, a novel benchmark designed to evaluate the robustness of LLMs on code generation from code-mixed prompts. Built upon BigCodeBench, CodeMixBench introduces controlled code-mixing (CMD) into the natural language parts of prompts across three language pairs: Hinglish (Hindi-English), Spanish-English, and Chinese Pinyin-English. We comprehensively evaluate a diverse set of open-source code generation models ranging from 1.5B to 15B parameters. Our results show that code-mixed prompts consistently degrade Pass@1 performance compared to their English-only counterparts, with performance drops increasing under higher CMD levels for smaller models. CodeMixBench provides a realistic evaluation framework for studying multilingual code generation and highlights new challenges and directions for building robust code generation models that generalize well across diverse linguistic settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成タスクにおいて顕著な成功を収め、コード補完、デバッグ、プログラミング支援といった様々なアプリケーションに電力を供給する。
しかし、HumanEvalやMBPP、BigCodeBenchといった既存のベンチマークでは、LLMを英語のみのプロンプトで評価している。
このギャップに対処するために、コード混合プロンプトからコード生成におけるLLMの堅牢性を評価するために設計された新しいベンチマークであるCodeMixBenchを紹介する。
BigCodeBenchをベースに構築されたCodeMixBenchは、Hinglish(ヒンディー語)、スペイン語、中国語のPinyin- Englishという3つの言語ペアにわたるプロンプトの自然言語部分に、制御されたコードミキシング(CMD)を導入している。
1.5Bパラメータから15Bパラメータまで,さまざまなオープンソースコード生成モデルを包括的に評価した。
その結果、コード混合プロンプトは、英語のみのプロンプトに比べて一貫してPass@1性能を低下させ、より小さなモデルではCMDレベル以下で性能が低下することがわかった。
CodeMixBenchは、多言語コード生成を研究するための現実的な評価フレームワークを提供し、多様な言語的設定でうまく一般化された堅牢なコード生成モデルを構築するための新しい課題と方向性を強調している。
関連論文リスト
- Multi-Programming Language Ensemble for Code Generation in Large Language Model [5.882816711878273]
大規模言語モデル(LLM)は、特にワンパスコード生成において、コード生成を大幅に改善した。
既存のアプローチのほとんどは、単一のプログラミング言語でコードを生成することだけに重点を置いており、LLMの多言語機能を活用する可能性を見越している。
本稿では,複数の言語にまたがるコード生成を利用して全体的な性能を向上させる,新しいアンサンブルに基づくMulti-Programming Language Ensemble (MPLE)を提案する。
論文 参考訳(メタデータ) (2024-09-06T08:31:18Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。