論文の概要: Foundation Models as Oracles for Refactoring Correctness Detection
- arxiv url: http://arxiv.org/abs/2605.02096v1
- Date: Sun, 03 May 2026 23:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.078146
- Title: Foundation Models as Oracles for Refactoring Correctness Detection
- Title(参考訳): 正しい検出をリファクタリングするためのOracleとしてのファンデーションモデル
- Authors: Rohit Gheyi, Rian Melo, Jonhnanthan Oliveira, Marcio Ribeiro, Baldoino Fonseca,
- Abstract要約: 本研究は,Javaプログラムのバグ検出のオーラクルとして機能する基盤モデルの可能性を検討する。
本研究の結果から, 基礎モデルの性能はモデルによって異なるものの, この課題に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 0.6596954257395425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Refactoring tools in popular Integrated Development Environments (IDEs) can introduce unintended behavioral changes or compilation errors, a persistent challenge that undermines developer trust in automated transformations. Traditional detection approaches rely on handcrafted preconditions, and static and dynamic analyses, yet remain limited in adaptability and can miss subtle correctness issues. This study examines the potential of foundation models to serve as oracles for detecting refactoring bugs in Java programs. We evaluate zero-shot prompting, without task-specific training, across 226 real refactoring bugs collected over more than a decade from widely used Java IDEs (IntelliJ-IDEA, Eclipse, and NetBeans), spanning 47 refactoring types. Our results indicate that foundation models can be effective for this task, although performance varies across models. In the first-run setting, GPT-OSS-20B achieved 80.5% accuracy, while GPT-5.4 reached 93.8%. We also evaluated other open and proprietary models: Gemma-4-31B achieved the strongest result among open models, and Gemini-3.1-Pro-Preview achieved the best overall result among all evaluated models. Metamorphic testing further shows that model predictions are largely consistent under intended semantics-preserving code variations, suggesting that superficial pattern matching may not fully account for the observed behavior. Beyond detection accuracy, foundation models can provide short explanations that may help support developer inspection, operate across refactoring types without explicitly encoded refactoring-specific rules, and may serve as lightweight triage aids in development workflows. Our findings suggest that foundation models can complement traditional refactoring checks by flagging suspicious transformations for developer inspection.
- Abstract(参考訳): 一般的な統合開発環境(IDE)のリファクタリングツールは、意図しない振る舞いの変更やコンパイルエラーをもたらす可能性がある。
従来の検出手法は手作りの事前条件と静的および動的解析に依存しているが、適応性には制限があり、微妙な正しさの問題を見逃す可能性がある。
本研究は,Javaプログラムのリファクタリングバグを検出するためのオーラクルとして機能する基盤モデルの可能性を検討する。
47のリファクタリングタイプにまたがる、広く使用されているJava IDE(IntelliJ-IDEA、Eclipse、NetBeans)から10年以上にわたって収集された226の実際のリファクタリングバグに対して、タスク固有のトレーニングなしでゼロショットプロンプトを評価しました。
本研究の結果から, 基礎モデルの性能はモデルによって異なるものの, この課題に有効であることが示唆された。
GPT-OSS-20Bは80.5%の精度を達成し、GPT-5.4は93.8%に達した。
Gemma-4-31Bはオープンモデルの中で最強の結果を、Gemini-3.1-Pro-Previewはすべての評価モデルの中で最高の結果を得た。
メタモルフィックテストはさらに、モデル予測が意図されたセマンティクスを保存するコードバリエーションの下では概ね一貫性があることを示し、表面的なパターンマッチングが観察された振る舞いを完全に説明できないことを示唆している。
検出精度以外にも、ファンデーションモデルは、開発者インスペクションをサポートするのに役立つ短い説明を提供し、リファクタリング固有のルールを明示的にエンコードすることなく、リファクタリングタイプを横断的に運用し、開発ワークフローにおいて軽量なトリアージ補助を提供することができる。
この結果から, ファンデーションモデルが開発者の検査に不審な変換を通知することで, 従来のリファクタリングチェックを補完できる可能性が示唆された。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - How Robustly do LLMs Understand Execution Semantics? [3.2717315277334706]
LLMは驚くべき推論能力を示しているが、それらが内的世界モデルを利用するのか、高度なパターンマッチングに依存しているのかは未解決のままである。
我々は,標準的なプログラム出力予測タスクを用いて,LLMをそのコード理解の堅牢性のレンズを通して研究する。
私たちの発見は、すべてのモデルがコードを理解する方法の限界を示し、コードモデルを評価するために摂動を使うことの価値を確立します。
論文 参考訳(メタデータ) (2026-02-24T19:07:25Z) - Refactoring $\neq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis [54.361900378970134]
Just-in-time defect prediction (JIT-DP) は、早期にソフトウェア欠陥を引き起こすコード変更の可能性を予測することを目的としている。
これまでの研究は、その頻度にもかかわらず、評価フェーズと方法論フェーズの両方でコードを無視してきた。
JIT-Defects4Jデータセットのラベリング精度を13.7%向上させるコードと伝播を分類するためのCode chAnge Tactics (CAT)解析を提案する。
論文 参考訳(メタデータ) (2025-07-25T23:29:25Z) - LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [8.166584296080805]
本稿では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。
その結果,コミットメッセージとコード差分を組み合わせることで,モデルの性能が著しく向上することがわかった。
49のオープンソースプロジェクトにアプローチを適用することで、バグギーと非バグギーメソッド間のコードのメトリクスの分散分離性が向上します。
論文 参考訳(メタデータ) (2025-05-13T06:26:13Z) - Evaluating the Effectiveness of Small Language Models in Detecting Refactoring Bugs [0.6133301815445301]
本研究では,Java と Python の2種類のバグ検出における小言語モデル (SLM) の有効性を評価する。
この研究は16種類のタイプをカバーし、コンシューマグレードのハードウェアにゼロショットプロンプトを用いて、事前トレーニングを明示することなくモデルの正確性を推論する能力を評価する。
プロプライエタリなo3-mini-highモデルは、タイプIの84.3%のバグを識別し、最も高い検出率を達成した。
論文 参考訳(メタデータ) (2025-02-25T18:52:28Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - DirectDebug: Automated Testing and Debugging of Feature Models [55.41644538483948]
変数モデル(例えば、特徴モデル)は、ソフトウェアアーティファクトの変数と共通性を表現する一般的な方法である。
複雑でしばしば大規模な機能モデルは欠陥になりうる、すなわち、ソフトウェアアーチファクトの期待される変動特性を表現しない。
論文 参考訳(メタデータ) (2021-02-11T11:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。