論文の概要: An Empirical Evaluation of Locally Deployed LLMs for Bug Detection in Python Code
- arxiv url: http://arxiv.org/abs/2604.23361v1
- Date: Sat, 25 Apr 2026 16:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.294932
- Title: An Empirical Evaluation of Locally Deployed LLMs for Bug Detection in Python Code
- Title(参考訳): Python コードにおけるバグ検出のためのローカル展開 LLM の実証評価
- Authors: Jelena Ilić Vulićević,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いソフトウェアエンジニアリングタスクにおいて強力なパフォーマンスを示している。
LLaMA 3.2 と Mistral という2つのローカルにデプロイされた LLM を実世界のPython バグ検出のために体系的に評価した。
機能レベルでのゼロショットプロンプトアプローチと,キーワードベースの自動評価フレームワークを用いて,17プロジェクトにわたる349のバグを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated strong performance on a wide range of software engineering tasks, including code generation and analysis. However, most prior work relies on cloud-based models or specialized hardware, limiting practical applicability in privacy-sensitive or resource-constrained environments. In this paper, we present a systematic empirical evaluation of two locally deployed LLMs, LLaMA 3.2 and Mistral, for real-world Python bug detection using the BugsInPy benchmark. We evaluate 349 bugs across 17 projects using a zero-shot prompting approach at the function level and an automated keyword-based evaluation framework. Our results show that locally executed models achieve accuracy between 43% and 45%, while producing a large proportion of partially correct responses that identify problematic code regions without pinpointing the exact fix. Performance varies significantly across projects, highlighting the importance of codebase characteristics. The results demonstrate that local models can identify a meaningful share of bugs, though precise localization remains difficult for locally executed LLMs, particularly when handling complex and context dependent bugs in realistic development scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成や解析を含む幅広いソフトウェアエンジニアリングタスクにおいて、強力なパフォーマンスを示している。
しかしながら、以前の作業のほとんどはクラウドベースのモデルや特別なハードウェアに依存しており、プライバシに敏感な環境やリソースに制約のある環境での実践的適用性を制限している。
本稿では,BugsInPyベンチマークを用いて実世界のPythonバグ検出を行うために,LLaMA 3.2 と Mistral の2つのローカルデプロイ LLM の系統的評価を行った。
機能レベルでのゼロショットプロンプトアプローチと,キーワードベースの自動評価フレームワークを用いて,17プロジェクトにわたる349のバグを評価した。
その結果,局所的に実行したモデルでは43%から45%の精度で精度が得られ,問題のあるコード領域を特定できる部分的正解率も高いことがわかった。
パフォーマンスはプロジェクトによって大きく異なり、コードベースの特徴の重要性を強調している。
この結果から,ローカルモデルでは有意義なバグの特定が可能であることが示されたが,局所的に実行されているLLMでは,特に現実的な開発シナリオにおいて複雑でコンテキストに依存したバグを扱う場合,正確なローカライゼーションは難しいままである。
関連論文リスト
- Empirical Evaluation of Generalizable Automated Program Repair with Large Language Models [4.757323827658957]
自動プログラム修正は、開発者がソフトウェアをメンテナンスするのを助けるバグ修正を提案する。
近年の研究では、LLMを修復に利用できることが示されている。
オープンモデル (Llama 3.3, Qwen 2.5 Coder, DeepSeek R1 (dist.) など) やクローズドモデル (o3-mini, GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash など) を含む,最新の13モデルの多種多様なセットを評価した。
論文 参考訳(メタデータ) (2025-06-03T18:15:14Z) - BLAZE: Cross-Language and Cross-Project Bug Localization via Dynamic Chunking and Hard Example Learning [1.9854146581797698]
BLAZEは動的チャンキングとハードサンプル学習を採用するアプローチである。
プロジェクト横断と言語横断のバグローカライゼーションを強化するために、難しいバグケースを使用してGPTベースのモデルを微調整する。
BLAZEは、トップ1の精度で120%、平均平均精度(MAP)で144%、平均相互ランク(MRR)で100%上昇する。
論文 参考訳(メタデータ) (2024-07-24T20:44:36Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - RLocator: Reinforcement Learning for Bug Localization [1.9854146581797698]
強化学習に基づくバグローカライゼーション手法であるRLocatorを提案する。
6つの人気のあるApacheプロジェクトからの8,316のバグレポートのベンチマークデータセットに基づいて、実験的に評価した。
RLocatorは平均相互ランク(MRR)が0.62、平均精度(MAP)が0.59、トップ1スコアが0.46となる。
論文 参考訳(メタデータ) (2023-05-09T16:19:33Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。