論文の概要: Fine-Tuning Code Language Models to Detect Cross-Language Bugs
- arxiv url: http://arxiv.org/abs/2507.21954v1
- Date: Tue, 29 Jul 2025 16:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.652406
- Title: Fine-Tuning Code Language Models to Detect Cross-Language Bugs
- Title(参考訳): 言語横断バグ検出のための微調整コード言語モデル
- Authors: Zengyang Li, Yimeng Li, Binbin Huang, Peng Liang, Ran Mo, Hui Liu, Yutao Ma,
- Abstract要約: 言語間のバグ(CLB)は、異なるプログラミング言語(PL)間の相互作用から生じる。
本稿では,CLB検出における事前学習型言語モデル(CodeLM)の可能性について検討する。
- 参考スコア(独自算出の注目度): 7.534326172541989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual programming, which involves using multiple programming languages (PLs) in a single project, is increasingly common due to its benefits. However, it introduces cross-language bugs (CLBs), which arise from interactions between different PLs and are difficult to detect by single-language bug detection tools. This paper investigates the potential of pre-trained code language models (CodeLMs) in CLB detection. We developed CLCFinder, a cross-language code identification tool, and constructed a CLB dataset involving three PL combinations (Python-C/C++, Java-C/C++, and Python-Java) with nine interaction types. We fine-tuned 13 CodeLMs on this dataset and evaluated their performance, analyzing the effects of dataset size, token sequence length, and code comments. Results show that all CodeLMs performed poorly before fine-tuning, but exhibited varying degrees of performance improvement after fine-tuning, with UniXcoder-base achieving the best F1 score (0.7407). Notably, small fine-tuned CodeLMs tended to performe better than large ones. CodeLMs fine-tuned on single-language bug datasets performed poorly on CLB detection, demonstrating the distinction between CLBs and single-language bugs. Additionally, increasing the fine-tuning dataset size significantly improved performance, while longer token sequences did not necessarily improve the model performance. The impact of code comments varied across models. Some fine-tuned CodeLMs' performance was improved, while others showed degraded performance.
- Abstract(参考訳): 1つのプロジェクトで複数のプログラミング言語(PL)を使用するマルチ言語プログラミングは、その利点のためにますます一般的になっている。
しかし、異なるPL間の相互作用から生じる言語横断バグ(CLB)を導入し、単一言語バグ検出ツールでは検出が困難である。
本稿では,CLB検出における事前学習型言語モデル(CodeLM)の可能性について検討する。
我々は,言語間のコード識別ツールであるCLCFinderを開発し,9つの対話型を組み合わせた3つのPL(Python-C/C++,Java-C/C++,Python-Java)を組み合わせたCLBデータセットを構築した。
このデータセット上で13のCodeLMを微調整し、その性能を評価し、データセットサイズ、トークンシーケンスの長さ、コードコメントの影響を分析した。
その結果、すべてのCodeLMは微調整前に性能が良くなかったが、微調整後に様々な性能向上を示し、UniXcoder-baseは最高のF1スコア(0.7407)を達成した。
特に、小さな微調整のCodeLMは大きなものよりもパフォーマンスが良い傾向にあった。
単一言語バグデータセットを微調整したCodeLMは、CLB検出において不十分に動作し、CLBと単一言語バグの区別を実証した。
さらに、微調整データセットのサイズを拡大することで、パフォーマンスが大幅に向上する一方、トークンシーケンスが長ければ長いほど、必ずしもモデルのパフォーマンスが向上するとは限らない。
コードコメントの影響はモデルによって異なる。
いくつかの微調整されたCodeLMの性能は改善され、他のものは劣化した性能を示した。
関連論文リスト
- Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs [59.371789255015244]
大規模言語モデルは予期せぬコードスイッチング(言語ミキシングとしても知られる)に悩まされる。
この問題は可読性を低下させ、モデル応答のユーザビリティを低下させる。
我々は、$textbfS$parse $textbfA$utoencoder-guided $textbfS$upervised $textbfF$ine$textbft$uningを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:20:01Z) - On the Effect of Token Merging on Pre-trained Models for Code [11.029842116504726]
本研究では,同じ意味単位に属するサブトークンの隠蔽表現をマージする効果について検討する。
1つは表現を平均化することに基づく戦略であり、もう1つは学習に基づくアプローチを活用する戦略である。
これらの戦略は浮動小数点演算数を1%$から19%$に削減できることを示している。
論文 参考訳(メタデータ) (2025-07-19T00:48:20Z) - Vulnerability Detection in Popular Programming Languages with Language Models [2.048226951354646]
本稿では,JavaScript,Java,Python,PHP,Goの脆弱性検出における言語モデル(LM)の有効性について検討する。
C/C++と比較して、JavaScriptは最高のパフォーマンスを示し、より優れた、より実用的な検出能力を持っています。
論文 参考訳(メタデータ) (2024-12-20T13:57:27Z) - Specification-Driven Code Translation Powered by Large Language Models: How Far Are We? [8.534857249221844]
コード翻訳の中間表現としてNL-specificationを用いる。
以上の結果から,NL特異化だけでは性能改善には至らないことが明らかとなった。
コード翻訳の性能解析に加えて,翻訳コードの品質についても検討する。
論文 参考訳(メタデータ) (2024-12-05T20:10:21Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。