Fugu-MT 論文翻訳(概要): Evaluating the Effectiveness of Small Language Models in Detecting Refactoring Bugs

論文の概要: Evaluating the Effectiveness of Small Language Models in Detecting Refactoring Bugs

arxiv url: http://arxiv.org/abs/2502.18454v2
Date: Fri, 28 Mar 2025 17:43:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-31 15:06:06.356425
Title: Evaluating the Effectiveness of Small Language Models in Detecting Refactoring Bugs
Title（参考訳）: リファクタリングバグ検出における小言語モデルの有効性の評価
Authors: Rohit Gheyi, Marcio Ribeiro, Jonhnanthan Oliveira,
Abstract要約: 本研究では,Java と Python の2種類のバグ検出における小言語モデル (SLM) の有効性を評価する。この研究は16種類のタイプをカバーし、コンシューマグレードのハードウェアにゼロショットプロンプトを用いて、事前トレーニングを明示することなくモデルの正確性を推論する能力を評価する。プロプライエタリなo3-mini-highモデルは、タイプIの84.3%のバグを識別し、最も高い検出率を達成した。
参考スコア（独自算出の注目度）: 0.6133301815445301
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Popular IDEs frequently contain bugs in their refactoring implementations. Ensuring that a transformation preserves a program's behavior is a complex task. Traditional detection methods rely on predefined preconditions for each refactoring type, limiting their scalability and adaptability to new transformations. These methods often require extensive static and dynamic analyses, which are computationally expensive, time-consuming, and may still fail to detect certain refactoring bugs. This study evaluates the effectiveness of Small Language Models (SLMs) in detecting two types of refactoring bugs in Java and Python: (i) transformations that introduce errors or behavioral changes (Type I) and (ii) transformations unnecessarily blocked by IDEs despite being valid (Type II). We assess whether Llama 3.2 3B, Mistral 7B, Gemma 2 9B, Gemma 3 12B, DeepSeek-R1 14B, Phi-4 14B, o1-mini, and o3-mini-high can accurately detect 100 refactoring bugs reported in widely used Java and Python IDEs, such as Eclipse and NetBeans. The study covers 16 refactoring types and employs zero-shot prompting on consumer-grade hardware to evaluate the models' ability to reason about refactoring correctness without explicit prior training. The proprietary o3-mini-high model achieved the highest detection rate, identifying 84.3% of Type I bugs. The open-source Phi-4 14B performed comparably well, demonstrating strong effectiveness across both bug types. However, o3-mini-high struggled with Type II bugs, correctly identifying and applying valid but blocked transformations in only 40% of cases. The findings highlight the potential of SLMs for efficiently detecting refactoring bugs, particularly in verifying behavioral changes. Additionally, SLMs offer a more adaptable solution capable of generalizing across different refactoring types and programming languages, addressing key limitations of traditional approaches.
Abstract（参考訳）: 人気のあるIDEはリファクタリング実装にバグを頻繁に含んでいる。プログラムの振る舞いを保存する変換を保証することは、複雑なタスクである。従来の検出方法は、リファクタリングタイプ毎に事前に定義された前提条件に依存しており、スケーラビリティと新しい変換への適応性を制限する。これらの手法は、しばしば広範囲な静的および動的解析を必要とするが、これは計算に高価で、時間がかかり、あるリファクタリングバグを検出するのに失敗する可能性がある。本研究では、JavaとPythonの2種類のリファクタリングバグを検出する上で、SLM(Small Language Models)の有効性を評価する。 (i)エラーや行動変化(I型)を導入した変換 (ii) 有効であるにもかかわらず、IDEによって不要にブロックされる変換(タイプII)。 Llama 3.2 3B、Mistral 7B、Gemma 2 9B、Gemma 3 12B、DeepSeek-R1 14B、Phi-4 14B、o1-mini、o3-mini-highが、EclipseやNetBeansのような広く使われているJavaやPythonのIDEで報告されている100のリファクタリングバグを正確に検出できるかどうかを評価する。この研究では、16種類のリファクタリングタイプをカバーし、コンシューマグレードのハードウェアでゼロショットプロンプトを使用して、事前トレーニングを明示することなく、リファクタリングの正確性について推論する能力を評価する。プロプライエタリなo3-mini-highモデルは、タイプIの84.3%のバグを識別し、最も高い検出率を達成した。オープンソースのPhi-4 14Bは互換性に優れており、両方のバグタイプで強力な有効性を示している。しかし、o3-mini-highはタイプIIのバグに悩まされ、40%のケースで有効だがブロックされた変換を正しく識別し、適用した。この結果は、特に行動変化の検証において、効率よくリファクタリングバグを検出するSLMの可能性を浮き彫りにした。さらに、SLMは、さまざまなリファクタリングタイプやプログラミング言語をまたいで一般化し、従来のアプローチの重要な制限に対処する、より適応可能なソリューションを提供する。

関連論文リスト

Refactoring $\ eq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis [54.361900378970134]
Just-in-time defect prediction (JIT-DP) は、早期にソフトウェア欠陥を引き起こすコード変更の可能性を予測することを目的としている。これまでの研究は、その頻度にもかかわらず、評価フェーズと方法論フェーズの両方でコードを無視してきた。 JIT-Defects4Jデータセットのラベリング精度を13.7%向上させるコードと伝播を分類するためのCode chAnge Tactics (CAT)解析を提案する。
論文参考訳（メタデータ） (2025-07-25T23:29:25Z)
RefModel: Detecting Refactorings using Foundation Models [2.2670483018110366]
本稿では,RefModel というツールで実装された基礎モデルによる検出の実現可能性について検討する。 Phi4-14B と Claude 3.5 Sonnet を,人工的に生成した Java プログラムに適用した 858 個の単一動作変換のデータセット上で評価した。実世界の環境では、Claude 3.5 SonnetとGemini 2.5 Proが共同で、すべてのトランスフォーメーションの97%を特定し、最高のパフォーマンスの静的分析ベースのツールを上回った。
論文参考訳（メタデータ） (2025-07-15T14:20:56Z)
Bugs in the Shadows: Static Detection of Faulty Python Refactorings [44.115219601924856]
Pythonの動的型システムは、自動コード変換に重大な課題をもたらす。分析の結果,合計1,152回の試行の結果,4種類の29のバグが判明した。これらの結果は、自動コード変換の正確性を保証するために、現在のPythonツールの堅牢性を改善する必要性を強調している。
論文参考訳（メタデータ） (2025-07-01T18:03:56Z)
Evaluating LLMs Effectiveness in Detecting and Correcting Test Smells: An Empirical Study [6.373038973241454]
テストの臭いは、テストコードの悪い開発プラクティスを示し、保守性と信頼性を低下させる。 GPT-4-TurboNose, LLaMA 3 70B, Gemini-1.5 ProをPythonおよびJavaテストスイート上で評価した。
論文参考訳（メタデータ） (2025-06-09T09:46:41Z)
Semantic-Preserving Transformations as Mutation Operators: A Study on Their Effectiveness in Defect Detection [3.3590922002216197]
意味保存変換を実装した既存の出版物を収集し,その実装を共有する。欠陥検出ツールの強化のための3つの異なるアンサンブル戦略の有効性を実証的に検討した。この結果から,共有セマンティック保存変換の再利用は困難であり,時には意味論に悪影響を及ぼすことさえあることがわかった。
論文参考訳（メタデータ） (2025-03-30T14:00:22Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Comprehensive Multi-Modal Prototypes are Simple and Effective Classifiers for Vast-Vocabulary Object Detection [68.26282316080558]
現在のオープンワールド検出器は、限られたカテゴリーで訓練されているにもかかわらず、より広い範囲の語彙を認識することができる。本稿では,多語彙オブジェクト検出のためのプロトタイプ分類器Provaを紹介する。
論文参考訳（メタデータ） (2024-12-23T18:57:43Z)
An Empirical Study of Refactoring Engine Bugs [7.412890903261693]
Eclipse、IntelliJ IDEA、Netbeansのバグを分析することで、エンジンのバグに関する最初の体系的な研究を示す。これらのバグは, タイプ, 症状, 根本原因, トリガー条件によって分析した。我々のトランスファービリティー調査では、これらのエンジンの最新バージョンに130の新たなバグが見つかった。
論文参考訳（メタデータ） (2024-09-22T22:09:39Z)
Detecting Refactoring Commits in Machine Learning Python Projects: A Machine Learning-Based Approach [3.000496428347787]
MLRefScannerは、ML固有のものと一般的な操作の両方でコミットを特定する。本研究は,多言語および技術的領域にわたるプログラム検出におけるML駆動型アプローチの可能性を明らかにする。
論文参考訳（メタデータ） (2024-04-09T18:46:56Z)
ReGAL: Refactoring Programs to Discover Generalizable Abstractions [59.05769810380928]
Generalizable Abstraction Learning (ReGAL)は、再利用可能な関数のライブラリをコード化して学習する手法である。 ReGALによって発見された共有関数ライブラリは、プログラムが様々な領域で容易に予測できることを示している。 CodeLlama-13Bでは、ReGALはLOGOで11.5%、日付理解で26.1%、TextCraftで8.1%という絶対精度が向上し、3つのドメインのうち2つでGPT-3.5を上回った。
論文参考訳（メタデータ） (2024-01-29T18:45:30Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Automated Bug Generation in the era of Large Language Models [6.0770779409377775]
BugFarmは任意のコードを複数の複雑なバグに変換する。 BUGFARMが生成した1.9万以上の変異株から435k以上のバグを総合的に評価する。
論文参考訳（メタデータ） (2023-10-03T20:01:51Z)
BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文参考訳（メタデータ） (2022-07-21T20:17:53Z)
Generating Bug-Fixes Using Pretrained Transformers [11.012132897417592]
実世界のgithubからマイニングしたjavaメソッドのバグの検出と修正を学ぶ,データ駆動型プログラム修復手法を導入する。ソースコードプログラムの事前トレーニングは,スクラッチからの教師ありトレーニングに比べて,33%のパッチ数を改善することを示す。我々は,標準精度評価基準を非削除および削除のみの修正に洗練し,我々の最良モデルが従来よりも75%多くの非削除修正を生成することを示す。
論文参考訳（メタデータ） (2021-04-16T05:27:04Z)
Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文参考訳（メタデータ） (2020-08-04T10:41:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。