論文の概要: Evaluating the Effectiveness of Small Language Models in Detecting Refactoring Bugs
- arxiv url: http://arxiv.org/abs/2502.18454v1
- Date: Tue, 25 Feb 2025 18:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:37.078096
- Title: Evaluating the Effectiveness of Small Language Models in Detecting Refactoring Bugs
- Title(参考訳): リファクタリングバグ検出における小言語モデルの有効性の評価
- Authors: Rohit Gheyi, Marcio Ribeiro, Jonhnanthan Oliveira,
- Abstract要約: 本研究では,Java と Python の2種類のバグ検出における小言語モデル (SLM) の有効性を評価する。
この研究は16種類のタイプをカバーし、コンシューマグレードのハードウェアにゼロショットプロンプトを用いて、事前トレーニングを明示することなくモデルの正確性を推論する能力を評価する。
プロプライエタリなo3-mini-highモデルは、タイプIの84.3%のバグを識別し、最も高い検出率を達成した。
オープンソースのPhi-4 14Bは互換性に優れており、両方のバグタイプで強力な有効性を示している。
- 参考スコア(独自算出の注目度): 0.6133301815445301
- License:
- Abstract: Popular IDEs frequently contain bugs in their refactoring implementations. Ensuring that a transformation preserves a program's behavior is a complex task. Traditional detection methods rely on predefined preconditions for each refactoring type, limiting their scalability and adaptability to new transformations. These methods often require extensive static and dynamic analyses, which are computationally expensive, time-consuming, and may still fail to detect certain refactoring bugs. This study evaluates the effectiveness of Small Language Models (SLMs) in detecting two types of refactoring bugs in Java and Python: (i) transformations that introduce errors or behavioral changes (Type I) and (ii) transformations unnecessarily blocked by IDEs despite being valid (Type II). We assess whether Llama 3.2 3B, Mistral 7B, Gemma 2 9B, DeepSeek-R1 14B, Phi-4 14B, o1-mini, and o3-mini-high can accurately detect 100 refactoring bugs reported in widely used Java and Python IDEs, such as Eclipse and NetBeans. The study covers 16 refactoring types and employs zero-shot prompting on consumer-grade hardware to evaluate the models' ability to reason about refactoring correctness without explicit prior training. The proprietary o3-mini-high model achieved the highest detection rate, identifying 84.3% of Type I bugs. The open-source Phi-4 14B performed comparably well, demonstrating strong effectiveness across both bug types. However, o3-mini-high struggled with Type II bugs, correctly identifying and applying valid but blocked transformations in only 40% of cases. The findings highlight the potential of SLMs for efficiently detecting refactoring bugs, particularly in verifying behavioral changes. Additionally, SLMs offer a more adaptable solution capable of generalizing across different refactoring types and programming languages, addressing key limitations of traditional approaches.
- Abstract(参考訳): 人気のあるIDEはリファクタリング実装にバグを頻繁に含んでいる。
プログラムの振る舞いを保存する変換を保証することは、複雑なタスクである。
従来の検出方法は、リファクタリングタイプ毎に事前に定義された前提条件に依存しており、スケーラビリティと新しい変換への適応性を制限する。
これらの手法は、しばしば広範囲な静的および動的解析を必要とするが、これは計算に高価で、時間がかかり、あるリファクタリングバグを検出するのに失敗する可能性がある。
本研究では、JavaとPythonの2種類のリファクタリングバグを検出する上で、SLM(Small Language Models)の有効性を評価する。
(i)エラーや行動変化(I型)を導入した変換
(ii) 有効であるにもかかわらず、IDEによって不要にブロックされる変換(タイプII)。
Llama 3.2 3B、Mistral 7B、Gemma 2 9B、DeepSeek-R1 14B、Phi-4 14B、o1-mini、o3-mini-highが、EclipseやNetBeansのような広く使われているJavaやPythonのIDEで報告されている100のリファクタリングバグを正確に検出できるかどうかを評価する。
この研究では、16種類のリファクタリングタイプをカバーし、コンシューマグレードのハードウェアでゼロショットプロンプトを使用して、事前トレーニングを明示することなく、リファクタリングの正確性について推論する能力を評価する。
プロプライエタリなo3-mini-highモデルは、タイプIの84.3%のバグを識別し、最も高い検出率を達成した。
オープンソースのPhi-4 14Bは互換性に優れており、両方のバグタイプで強力な有効性を示している。
しかし、o3-mini-highはタイプIIのバグに悩まされ、40%のケースで有効だがブロックされた変換を正しく識別し、適用した。
この結果は、特に行動変化の検証において、効率よくリファクタリングバグを検出するSLMの可能性を浮き彫りにした。
さらに、SLMは、さまざまなリファクタリングタイプやプログラミング言語をまたいで一般化し、従来のアプローチの重要な制限に対処する、より適応可能なソリューションを提供する。
関連論文リスト
- Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection [68.26282316080558]
現在のオープンワールド検出器は、限られたカテゴリーで訓練されているにもかかわらず、より広い範囲の語彙を認識することができる。
本稿では,多語彙オブジェクト検出のためのプロトタイプ分類器Provaを紹介する。
論文 参考訳(メタデータ) (2024-12-23T18:57:43Z) - An Empirical Study of Refactoring Engine Bugs [7.412890903261693]
Eclipse、IntelliJ IDEA、Netbeansのバグを分析することで、エンジンのバグに関する最初の体系的な研究を示す。
これらのバグは, タイプ, 症状, 根本原因, トリガー条件によって分析した。
我々のトランスファービリティー調査では、これらのエンジンの最新バージョンに130の新たなバグが見つかった。
論文 参考訳(メタデータ) (2024-09-22T22:09:39Z) - Detecting Refactoring Commits in Machine Learning Python Projects: A Machine Learning-Based Approach [3.000496428347787]
MLRefScannerは、ML固有のものと一般的な操作の両方でコミットを特定する。
本研究は,多言語および技術的領域にわたるプログラム検出におけるML駆動型アプローチの可能性を明らかにする。
論文 参考訳(メタデータ) (2024-04-09T18:46:56Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - ReGAL: Refactoring Programs to Discover Generalizable Abstractions [59.05769810380928]
Generalizable Abstraction Learning (ReGAL)は、再利用可能な関数のライブラリをコード化して学習する手法である。
ReGALによって発見された共有関数ライブラリは、プログラムが様々な領域で容易に予測できることを示している。
CodeLlama-13Bでは、ReGALはLOGOで11.5%、日付理解で26.1%、TextCraftで8.1%という絶対精度が向上し、3つのドメインのうち2つでGPT-3.5を上回った。
論文 参考訳(メタデータ) (2024-01-29T18:45:30Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Automated Bug Generation in the era of Large Language Models [6.0770779409377775]
BugFarmは任意のコードを複数の複雑なバグに変換する。
BUGFARMが生成した1.9万以上の変異株から435k以上のバグを総合的に評価する。
論文 参考訳(メタデータ) (2023-10-03T20:01:51Z) - Finding Deep-Learning Compilation Bugs with NNSmith [20.082492391396933]
本稿では,ディープラーニングコンパイラのバグ発見のためのファズテスト手法を提案する。
我々の中核的なアプローチは、(i)軽量な演算子仕様を使用して、多種多様な有効なモデルを生成し、(ii)勾配ベースの探索プロセスを作成し、(iii)差分テストによってバグを特定します。
我々は,この手法をNSmithで実施し,TVM,RT,ONNXRuntime,PyTorchの過去7ヶ月で65の新たなバグを発見した。そのうち52件が確認され,メンテナによって44件が修正されている。
論文 参考訳(メタデータ) (2022-07-26T17:39:51Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - Generating Bug-Fixes Using Pretrained Transformers [11.012132897417592]
実世界のgithubからマイニングしたjavaメソッドのバグの検出と修正を学ぶ,データ駆動型プログラム修復手法を導入する。
ソースコードプログラムの事前トレーニングは,スクラッチからの教師ありトレーニングに比べて,33%のパッチ数を改善することを示す。
我々は,標準精度評価基準を非削除および削除のみの修正に洗練し,我々の最良モデルが従来よりも75%多くの非削除修正を生成することを示す。
論文 参考訳(メタデータ) (2021-04-16T05:27:04Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。