Fugu-MT 論文翻訳(概要): CodeMixBench: Evaluating Large Language Models on Code Generation with Code-Mixed Prompts

論文の概要: CodeMixBench: Evaluating Large Language Models on Code Generation with Code-Mixed Prompts

arxiv url: http://arxiv.org/abs/2505.05063v1
Date: Thu, 08 May 2025 08:55:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 21:43:49.814453
Title: CodeMixBench: Evaluating Large Language Models on Code Generation with Code-Mixed Prompts
Title（参考訳）: CodeMixBench: Code-Mixed Promptsによるコード生成における大規模言語モデルの評価
Authors: Manik Sheokand, Parth Sawant,
Abstract要約: 我々は,コード混合プロンプトからコードを生成する上で,大規模言語モデル(LLM)の堅牢性を評価するための新しいベンチマークであるCodeMixBenchを紹介する。 1.5Bパラメータから15Bパラメータまで,さまざまなオープンソースコード生成モデルを包括的に評価した。その結果、コード混合プロンプトは、英語のみのプロンプトに比べて、常にPass@1のパフォーマンスを低下させることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have achieved remarkable success in code generation tasks, powering various applications like code completion, debugging, and programming assistance. However, existing benchmarks such as HumanEval, MBPP, and BigCodeBench primarily evaluate LLMs on English-only prompts, overlooking the real-world scenario where multilingual developers often use code-mixed language while interacting with LLMs. To address this gap, we introduce CodeMixBench, a novel benchmark designed to evaluate the robustness of LLMs on code generation from code-mixed prompts. Built upon BigCodeBench, CodeMixBench introduces controlled code-mixing (CMD) into the natural language parts of prompts across three language pairs: Hinglish (Hindi-English), Spanish-English, and Chinese Pinyin-English. We comprehensively evaluate a diverse set of open-source code generation models ranging from 1.5B to 15B parameters. Our results show that code-mixed prompts consistently degrade Pass@1 performance compared to their English-only counterparts, with performance drops increasing under higher CMD levels for smaller models. CodeMixBench provides a realistic evaluation framework for studying multilingual code generation and highlights new challenges and directions for building robust code generation models that generalize well across diverse linguistic settings.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コード生成タスクにおいて顕著な成功を収め、コード補完、デバッグ、プログラミング支援といった様々なアプリケーションに電力を供給する。しかし、HumanEvalやMBPP、BigCodeBenchといった既存のベンチマークでは、LLMを英語のみのプロンプトで評価している。このギャップに対処するために、コード混合プロンプトからコード生成におけるLLMの堅牢性を評価するために設計された新しいベンチマークであるCodeMixBenchを紹介する。 BigCodeBenchをベースに構築されたCodeMixBenchは、Hinglish(ヒンディー語)、スペイン語、中国語のPinyin- Englishという3つの言語ペアにわたるプロンプトの自然言語部分に、制御されたコードミキシング(CMD)を導入している。 1.5Bパラメータから15Bパラメータまで,さまざまなオープンソースコード生成モデルを包括的に評価した。その結果、コード混合プロンプトは、英語のみのプロンプトに比べて一貫してPass@1性能を低下させ、より小さなモデルではCMDレベル以下で性能が低下することがわかった。 CodeMixBenchは、多言語コード生成を研究するための現実的な評価フレームワークを提供し、多様な言語的設定でうまく一般化された堅牢なコード生成モデルを構築するための新しい課題と方向性を強調している。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Evaluating Code-Mixing in LLMs Across 18 Languages [9.241002681667378]
会話の中で言語を切り替えるコードミキシングは、自然言語処理に特有の課題を提示している。 LinCEやGLUECoSといった既存のベンチマークは、狭い言語ペアリングとタスクによって制限されている。 7つの言語ファミリーから18言語にまたがるコード混合データに対して,大規模言語モデルの性能を包括的に評価する。
論文参考訳（メタデータ） (2025-07-24T20:24:33Z)
Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
Multi-Programming Language Ensemble for Code Generation in Large Language Model [5.882816711878273]
大規模言語モデル(LLM)は、特にワンパスコード生成において、コード生成を大幅に改善した。既存のアプローチのほとんどは、単一のプログラミング言語でコードを生成することだけに重点を置いており、LLMの多言語機能を活用する可能性を見越している。本稿では,複数の言語にまたがるコード生成を利用して全体的な性能を向上させる,新しいアンサンブルに基づくMulti-Programming Language Ensemble (MPLE)を提案する。
論文参考訳（メタデータ） (2024-09-06T08:31:18Z)
Exploring Multi-Lingual Bias of Large Code Models in Code Generation [55.336629780101475]
コード生成は、自然言語(NL)仕様に基づいて、コードを合成し、機能要件を満たすことを目的としている。有効性にもかかわらず、我々は大規模コードモデル(LCM)の生成性能において顕著な多言語バイアスを観察する。 LCMは、英語で指示を与えると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、失敗する可能性がある。
論文参考訳（メタデータ） (2024-04-30T08:51:49Z)
IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。 IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文参考訳（メタデータ） (2024-03-06T17:52:08Z)
CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。 CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文参考訳（メタデータ） (2023-10-10T02:38:44Z)
Prompting Multilingual Large Language Models to Generate Code-Mixed Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。 BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。 ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文参考訳（メタデータ） (2023-03-23T18:16:30Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。