論文の概要: Evaluating Non-English Developer Support in Machine Learning for Software Engineering
- arxiv url: http://arxiv.org/abs/2605.05902v1
- Date: Thu, 07 May 2026 09:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.655543
- Title: Evaluating Non-English Developer Support in Machine Learning for Software Engineering
- Title(参考訳): ソフトウェアエンジニアリングのための機械学習における非英語開発者サポートの評価
- Authors: Jonathan Katzy, Yongcheng Huang, Gopal-Raj Panchu, Maksym Ziemlewski, Paris Loizides, Sander Vermeulen, Arie van Deursen, Maliheh Izadi,
- Abstract要約: 非英語のコードコメント生成と、そのような出力を評価するための現在の手法の信頼性について検討する。
我々は、オランダ語、英語、ギリシャ語、ポーランド語、中国語の5つの自然言語にまたがる5つのコードLLMを評価した。
以上の結果から, 生成能力は英語以外では著しく低下することがわかった。
- 参考スコア(独自算出の注目度): 10.991188038644617
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models are increasingly used in software engineering, but both code generation and its evaluation remain predominantly English-centric. This leaves a major gap in our understanding of how well current tools support multilingual development, where code contains non-English natural language. In this paper, we investigate non-English code comment generation and the reliability of current methods for evaluating such outputs. We evaluate five code LLMs (CodeGemma, CodeLlama, CodeQwen1.5, GraniteCode, and StarCoder2) across five natural languages: Dutch, English, Greek, Polish and Chinese. We further conduct an open-coding study of 12,500 generated comments, from which we derive a publicly released human-annotated dataset and a taxonomy of 26 error types. We use these human annotations, to evaluate the performance of neural metrics, and LLM-as-a-judge pipelines. Our findings show that generative performance deteriorates substantially outside English, with linguistic errors increasing by up to 15.1$\times$, alongside frequent incoherent generations and a rise in semantic errors. More critically, we show that detecting errors in non-English comments underperforms. Across classical overlap-based metrics, off-the-shelf neural metrics, extended neural metrics using newer multilingual, language-specific, and code-specific models, and LLM-as-a-judge pipelines, no automatic approach provides reliable and consistent assessment. Neural metrics fail to distinguish correct comments from incorrect outputs or even random noise, and tend to overestimate quality in non-English settings. LLM-as-a-judge methods achieve the highest agreement with human annotations but fail to reliably capture important language-related and semantic errors. Overall, our results show that evaluation and generation are key barriers for multilingual tooling, and that human judgment remains indispensable.
- Abstract(参考訳): 大規模言語モデルはソフトウェア工学でますます使われているが、コード生成と評価は英語中心のままである。
これは、現在のツールが多言語開発をどのようにサポートしているか、という私たちの理解に大きなギャップを残します。
本稿では,非英語のコードコメント生成と,そのような出力を評価するための現行手法の信頼性について検討する。
我々は、オランダ語、英語、ギリシャ語、ポーランド語、中国語の5つの自然言語で、LLM(CodeGemma, CodeLlama, CodeQwen1.5, GraniteCode, StarCoder2)を評価する。
さらに12,500件のコメントを公開コードで公開し、そこから公開の人手による注釈付きデータセットと26種類のエラータイプの分類を導出する。
我々は、これらの人間のアノテーションを使用して、ニューラルメトリックとLCM-as-a-judgeパイプラインの性能を評価する。
以上の結果より, 言語的誤りが最大15.1$\times$に増加し, 不整合が頻発し, 意味的誤りが増大する傾向がみられた。
さらに重要なことは、非英語コメントにおける誤りの検出が不十分であることを示す。
古典的なオーバーラップベースのメトリクス、オフザシェルフのニューラルネットワークメトリクス、より新しい多言語、言語固有、コード固有モデルを使用した拡張ニューラルネットワークメトリクス、LLM-as-a-judgeパイプラインなど、自動的なアプローチは信頼性と一貫性のある評価を提供しない。
ニューラルネットワークのメトリクスは、正しいコメントと不正な出力、あるいはランダムなノイズを区別することができず、非英語の設定で品質を過大評価する傾向がある。
LLM-as-a-judgeメソッドは、人間のアノテーションと最高の一致を達成するが、重要な言語関連および意味的誤りを確実に捕捉することができない。
全体として、評価と生成は多言語ツールの鍵となる障壁であり、人間の判断は不可欠であることを示す。
関連論文リスト
- CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language [10.19354135187181]
我々は,低リソース汎用言語であるCangjieの汚染のないベンチマークであるCangjieBenchを紹介する。
ベンチマークは、HumanEvalとClassEvalから手作業で翻訳された248の高品質なサンプルで構成されている。
実験の結果、ダイレクトジェネレーションは性能が悪く、シンタクス制約ジェネレーションは精度と計算コストの最良のトレードオフを提供することがわかった。
論文 参考訳(メタデータ) (2026-03-15T17:35:03Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - A Qualitative Investigation into LLM-Generated Multilingual Code Comments and Automatic Evaluation Metrics [10.1653613066577]
我々は,5つの最先端コードモデルによって生成されたコードコメントの誤りを分析するために,オープンコーディング研究を行う。
モデル生成コードコメントにおいて26の異なるエラーカテゴリの分類を同定する。
分析の結果、これらのモデルはしばしば部分的に正しいコメントを生成するが、現代のニューラルネットワークは、意味のある完了をランダムノイズと確実に区別することができないことがわかった。
論文 参考訳(メタデータ) (2025-05-21T12:45:49Z) - Creating and Evaluating Code-Mixed Nepali-English and Telugu-English Datasets for Abusive Language Detection Using Traditional and Deep Learning Models [1.835004446596942]
我々は,2千のテルグ語と5つのネパール語と英語のコードミキシングされたコメントからなる,手動で注釈付けされた新しいデータセットを紹介した。
データセットは厳格な事前処理を経て、複数の機械学習(ML)、ディープラーニング(DL)、大規模言語モデル(LLM)で評価される。
本研究は,コード混在環境における乱用言語検出の課題について,重要な知見を提供するものである。
論文 参考訳(メタデータ) (2025-04-23T11:29:10Z) - mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。