論文の概要: A Qualitative Investigation into LLM-Generated Multilingual Code Comments and Automatic Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2505.15469v1
- Date: Wed, 21 May 2025 12:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.643665
- Title: A Qualitative Investigation into LLM-Generated Multilingual Code Comments and Automatic Evaluation Metrics
- Title(参考訳): LLM生成多言語コードコメントと自動評価指標の質的検討
- Authors: Jonathan Katzy, Yongcheng Huang, Gopal-Raj Panchu, Maksym Ziemlewski, Paris Loizides, Sander Vermeulen, Arie van Deursen, Maliheh Izadi,
- Abstract要約: 我々は,5つの最先端コードモデルによって生成されたコードコメントの誤りを分析するために,オープンコーディング研究を行う。
モデル生成コードコメントにおいて26の異なるエラーカテゴリの分類を同定する。
分析の結果、これらのモデルはしばしば部分的に正しいコメントを生成するが、現代のニューラルネットワークは、意味のある完了をランダムノイズと確実に区別することができないことがわかった。
- 参考スコア(独自算出の注目度): 10.1653613066577
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models are essential coding assistants, yet their training is predominantly English-centric. In this study, we evaluate the performance of code language models in non-English contexts, identifying challenges in their adoption and integration into multilingual workflows. We conduct an open-coding study to analyze errors in code comments generated by five state-of-the-art code models, CodeGemma, CodeLlama, CodeQwen1.5, GraniteCode, and StarCoder2 across five natural languages: Chinese, Dutch, English, Greek, and Polish. Our study yields a dataset of 12,500 labeled generations, which we publicly release. We then assess the reliability of standard metrics in capturing comment \textit{correctness} across languages and evaluate their trustworthiness as judgment criteria. Through our open-coding investigation, we identified a taxonomy of 26 distinct error categories in model-generated code comments. They highlight variations in language cohesion, informativeness, and syntax adherence across different natural languages. Our analysis shows that, while these models frequently produce partially correct comments, modern neural metrics fail to reliably differentiate meaningful completions from random noise. Notably, the significant score overlap between expert-rated correct and incorrect comments calls into question the effectiveness of these metrics in assessing generated comments.
- Abstract(参考訳): 大規模言語モデルは必須のコーディングアシスタントであるが、そのトレーニングは主に英語中心である。
本研究では、非英語文脈における言語モデルの性能を評価し、その導入と多言語ワークフローへの統合における課題を特定する。
CodeGemma, CodeLlama, CodeQwen1.5, GraniteCode, StarCoder2の5つの自然言語(中国語, オランダ語, 英語, ギリシャ語, ポーランド語)が生成したコードコメントのエラーを分析するための,オープンコード調査を実施している。
我々の研究は12,500のラベル付き世代からなるデータセットを生成し、それを公開している。
次に、言語間でのコメント \textit{correctness} の取得における標準指標の信頼性を評価し、信頼度を判定基準として評価する。
オープンコード調査を通じて、モデル生成コードコメントにおいて、26の異なるエラーカテゴリの分類を特定しました。
それらは、異なる自然言語間の言語結合、情報性、構文の密着性の違いを強調している。
分析の結果、これらのモデルはしばしば部分的に正しいコメントを生成するが、現代のニューラルメトリクスは、意味のある完了をランダムノイズと確実に区別することができないことがわかった。
特に、専門家評価の正確さと不正なコメント呼び出しの間に重要なスコアが重なり、これらのメトリクスが生成されたコメントを評価する上での有効性を疑問視する。
関連論文リスト
- On Explaining (Large) Language Models For Code Using Global Code-Based Explanations [45.126233498200534]
Language Models for Code (LLM4Code)は、ソフトウェア工学(SE)のランドスケープを大きく変えた。
我々は、厳密な数学的基盤を持つ手法であるコード論理(Code$Q$)を導入し、個々のコード予測を説明できるトークンのサブセットを特定する。
評価の結果、Code$Q$は意味のある入力概念(すなわち自然言語粒子)が出力生成にどのように影響するかを説明するための強力な解釈可能性法であることがわかった。
論文 参考訳(メタデータ) (2025-03-21T01:00:45Z) - CodeReviewQA: The Code Review Comprehension Assessment for Large Language Models [10.108114365564926]
最先端の大規模言語モデル(LLM)は、印象的なコード生成機能を示しているが、実際のソフトウェアエンジニアリングタスクに苦労している。
コードレビューのコメントは暗黙的であり、曖昧で、口語であり、モデルがコードと人間の意図の両方を理解する必要がある。
この課題は、大きな言語モデルが技術的コンテキストと会話的コンテキストの両方を橋渡しする能力を評価することである。
論文 参考訳(メタデータ) (2025-03-20T14:07:31Z) - mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - From Effectiveness to Efficiency: Uncovering Linguistic Bias in Large Language Model-based Code Generation [30.914387085368734]
大規模言語モデル(LLM)はコード生成に有望な能力を示している。
本稿では,英語と中国語のレンズによる潜在的な言語バイアスについて検討する。
論文 参考訳(メタデータ) (2024-06-02T03:22:30Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。