論文の概要: A Differential Fuzzing-Based Evaluation of Functional Equivalence in LLM-Generated Code Refactorings
- arxiv url: http://arxiv.org/abs/2602.15761v1
- Date: Tue, 17 Feb 2026 17:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.147057
- Title: A Differential Fuzzing-Based Evaluation of Functional Equivalence in LLM-Generated Code Refactorings
- Title(参考訳): LLMコードリファクタリングにおける関数等価性の差分ファジリングによる評価
- Authors: Simantika Bhattacharjee Dristi, Matthew B. Dwyer,
- Abstract要約: 大言語モデル(LLM)の関数同値性チェックに差分ファジィを利用する。
LLMは、プログラムのセマンティクスを変更する非自明な傾向を示し、19-35%の機能的非等価を発生させる。
さらに、これらの非等価データの約21%が、既存の3つの評価データセットのテストスイートによって検出されていないことを実証した。
- 参考スコア(独自算出の注目度): 15.211628096103473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid adoption of large language models (LLMs) in automated code refactoring, assessing and ensuring functional equivalence between LLM-generated refactoring and the original implementation becomes critical. While prior work typically relies on predefined test cases to evaluate correctness, in this work, we leverage differential fuzzing to check functional equivalence in LLM-generated code refactorings. Unlike test-based evaluation, a differential fuzzing-based equivalence checker needs no predefined test cases and can explore a much larger input space by executing and comparing thousands of automatically generated test inputs. In a large-scale evaluation of six LLMs (CodeLlama, Codestral, StarChat2, Qwen-2.5, Olmo-3, and GPT-4o) across three datasets and two refactoring types, we find that LLMs show a non-trivial tendency to alter program semantics, producing 19-35% functionally non-equivalent refactorings. Our experiments further demonstrate that about 21% of these non-equivalent refactorings remain undetected by the existing test suites of the three evaluated datasets. Collectively, the findings of this study imply that reliance on existing tests might overestimate functional equivalence in LLM-generated code refactorings, which remain prone to semantic divergence.
- Abstract(参考訳): 自動コードリファクタリングにおける大規模言語モデル(LLM)の急速な採用により、LLM生成リファクタリングとオリジナルの実装との間の機能的等価性の評価と保証が重要となる。
事前の作業は通常、事前定義されたテストケースに頼って正確性を評価するが、この作業では、差分ファジィを利用してLCM生成したコードリファクタリングの関数的等価性をチェックする。
テストベースの評価とは異なり、差動ファジリングベースの同値チェッカーは事前に定義されたテストケースを必要とせず、何千もの自動生成テストインプットを実行・比較することにより、はるかに大きな入力スペースを探索できる。
3つのデータセットと2つのリファクタリングタイプにわたる6つのLCM(CodeLlama, Codestral, StarChat2, Qwen-2.5, Olmo-3, GPT-4o)を大規模に評価したところ、LCMはプログラムセマンティクスを変更する非自明な傾向を示し、19~35%の機能的に等価でないリファクタリングを生成することがわかった。
さらに、これらの非等価なリファクタリングの約21%は、3つの評価データセットの既存のテストスイートによって検出されていないことを実証した。
本研究は,LLM生成コードリファクタリングにおいて,既存テストへの依存が機能的等価性を過大評価する可能性を示唆している。
関連論文リスト
- SWE-Refactor: A Repository-Level Benchmark for Real-World LLM-Based Code Refactoring [20.694251041823097]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクに取り組むことに広く関心を集めている。
既存のベンチマークは一般的に3つの欠点に悩まされる。
SWE-Refactor は開発者によって書かれた 18 の Java プロジェクトから抽出された 1,099 の挙動保存 LLM で構成されている。
論文 参考訳(メタデータ) (2026-02-03T16:36:29Z) - From Human to Machine Refactoring: Assessing GPT-4's Impact on Python Class Quality and Readability [46.83143241367452]
リファクタリングは、プログラムの振る舞いを変えることなく、コード品質を改善することを目的としている。
LLM(Large Language Models)の最近の進歩は、コードの自動保存に新たな機会をもたらしている。
GPT-4o を用いて,クラスEval ベンチマークから 100 個の Python クラスに適用した LLM 型クラスに関する実証的研究を行った。
以上の結果から, GPT-4oは, 可読性の低下を犠牲にしながら, コードの臭いを低減し, 品質指標を改善する行動保存剤を一般的に生産していることが示唆された。
論文 参考訳(メタデータ) (2026-01-19T15:22:37Z) - Refactoring $\neq$ Bug-Inducing: Improving Defect Prediction with Code Change Tactics Analysis [54.361900378970134]
Just-in-time defect prediction (JIT-DP) は、早期にソフトウェア欠陥を引き起こすコード変更の可能性を予測することを目的としている。
これまでの研究は、その頻度にもかかわらず、評価フェーズと方法論フェーズの両方でコードを無視してきた。
JIT-Defects4Jデータセットのラベリング精度を13.7%向上させるコードと伝播を分類するためのCode chAnge Tactics (CAT)解析を提案する。
論文 参考訳(メタデータ) (2025-07-25T23:29:25Z) - Use Property-Based Testing to Bridge LLM Code Generation and Validation [38.25155484701058]
大きな言語モデル(LLM)はコード生成において優れていますが、その出力が機能的に正しいことを保証することは、永続的な課題です。
本稿では,Property-Generated Solverを紹介した。Property-Based Testing (PBT)を活用して,高レベルのプログラム特性を検証する新しいフレームワークである。
プロパティ生成ソルバーには、コード生成と反復リファインメント専用のジェネレータと、PBTライフサイクルを管理するテスタという、2つの共同LLMベースのエージェントが使用されている。
論文 参考訳(メタデータ) (2025-06-23T06:01:12Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - Improving the Readability of Automatically Generated Tests using Large Language Models [7.7149881834358345]
探索型ジェネレータの有効性とLLM生成試験の可読性を組み合わせることを提案する。
提案手法は,検索ツールが生成するテスト名や変数名の改善に重点を置いている。
論文 参考訳(メタデータ) (2024-12-25T09:08:53Z) - Toward Automated Validation of Language Model Synthesized Test Cases using Semantic Entropy [0.5057850174013127]
現代の大規模言語モデル(LLM)ベースのプログラミングエージェントは、しばしば、生成されたコードを洗練するためにテスト実行フィードバックに依存する。
本稿では,LLMが生成したテストケースの自動検証にセマンティックエントロピーを利用する新しいフレームワークVALTESTを紹介する。
VALTESTはテストの妥当性を最大29%向上し、パス@1スコアの大幅な増加によって証明されたコード生成のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2024-11-13T00:07:32Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。