論文の概要: LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets
- arxiv url: http://arxiv.org/abs/2505.08263v1
- Date: Tue, 13 May 2025 06:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.448063
- Title: LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets
- Title(参考訳): LLMによる高品質メソッドレベルバグデータセットのタングルコード変化の検出
- Authors: Md Nahidul Islam Opu, Shaowei Wang, Shaiful Chowdhury,
- Abstract要約: 本研究では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。
以上の結果から,コミットメッセージとコード差分を組み合わせることでモデル性能が著しく向上し,F1スコアの0.88が達成された。
これらの発見は、主にノイズフリーなバグデータセットが欠如していることから、メソッドレベルのバグ予測がオープンな研究課題であり続けているため、研究コミュニティにとって有益である。
- 参考スコア(独自算出の注目度): 5.191767648600372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tangled code changes-commits that conflate unrelated modifications such as bug fixes, refactorings, and enhancements-introduce significant noise into bug datasets and adversely affect the performance of bug prediction models. Addressing this issue at a fine-grained, method-level granularity remains underexplored. This is critical to address, as recent bug prediction models, driven by practitioner demand, are increasingly focusing on finer granularity rather than traditional class- or file-level predictions. This study investigates the utility of Large Language Models (LLMs) for detecting tangled code changes by leveraging both commit messages and method-level code diffs. We formulate the problem as a binary classification task and evaluate multiple prompting strategies, including zero-shot, few-shot, and chain-of-thought prompting, using state-of-the-art proprietary LLMs such as GPT-4o and Gemini-2.0-Flash. Our results demonstrate that combining commit messages with code diffs significantly enhances model performance, with the combined few-shot and chain-of-thought prompting achieving an F1-score of 0.88. Additionally, we explore embedding-based machine learning models trained on LLM-generated embeddings, where a multi-layer perceptron classifier achieves superior performance (F1-score: 0.906, MCC: 0.807). These findings are encouraging for the research community, as method-level bug prediction remains an open research problem, largely due to the lack of noise-free bug datasets. This research not only contributes a novel method-level perspective to the untangling problem but also highlights practical avenues for enhancing automated software quality assessment tools.
- Abstract(参考訳): 修正されたコードの変更-バグ修正、リファクタリング、拡張のような無関係な修正を詳述するコミットは、バグデータセットに重大なノイズを発生させ、バグ予測モデルのパフォーマンスに悪影響を及ぼす。
この問題に細粒度でメソッドレベルの粒度で対処するには、まだ未検討である。
最近のバグ予測モデルは,従来のクラスレベルの予測やファイルレベルの予測よりも,より詳細な粒度に注目する傾向にあります。
本研究では、コミットメッセージとメソッドレベルのコード差分の両方を活用することで、絡み合ったコード変化を検出するためのLarge Language Models(LLMs)の有用性について検討する。
GPT-4o や Gemini-2.0-Flash のような最先端のプロプライエタリ LLM を用いて,この問題をバイナリ分類タスクとして定式化し,ゼロショット,少数ショット,チェーン・オブ・シークレットといった複数のプロンプト戦略を評価する。
以上の結果から,コミットメッセージとコード差分を組み合わせることでモデル性能が著しく向上し,F1スコアの0.88が達成された。
さらに,多層パーセプトロン分類器が優れた性能を達成するため,LLM生成埋め込みに基づいて学習した埋め込みベース機械学習モデルについて検討する(F1スコア:0.906,MCC:0.807)。
これらの発見は、主にノイズフリーなバグデータセットが欠如していることから、メソッドレベルのバグ予測がオープンな研究課題であり続けているため、研究コミュニティにとって有益である。
本研究は, 回避問題に対する新しい手法レベルでの視点を提供するだけでなく, ソフトウェア品質評価ツールの自動化に向けた実践的方法も強調する。
関連論文リスト
- Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - iHHO-SMOTe: A Cleansed Approach for Handling Outliers and Reducing Noise to Improve Imbalanced Data Classification [0.0]
不均衡データセットの分類は、マシンラーニングにおいて依然として大きな課題である。
SMOTE(Synthetic Minority Over-Sampling Technique)は、表現不足のマイノリティクラスのための新しいインスタンスを生成する。
提案手法であるiHHO-SMOTeは,まずノイズ点からデータを浄化することにより,SMOTEの限界に対処する。
論文 参考訳(メタデータ) (2025-04-17T11:17:53Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。
Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-17T17:48:18Z) - Method-Level Bug Severity Prediction using Source Code Metrics and LLMs [0.628122931748758]
本稿では,ソースコードのメトリクス,大言語モデル(LLM)を用いたソースコード表現,およびバグ重大度ラベルの予測におけるそれらの組み合わせについて検討する。
以上の結果から,決定木モデルとランダムフォレストモデルは,いくつかの評価指標に関して,他のモデルよりも優れていたことが示唆された。
CodeBERTの微調整により、いくつかの評価指標の29%-140%の範囲でバグの重大度予測が大幅に改善される。
論文 参考訳(メタデータ) (2023-09-06T14:38:07Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。