論文の概要: ReFuzzer: Feedback-Driven Approach to Enhance Validity of LLM-Generated Test Programs
- arxiv url: http://arxiv.org/abs/2508.03603v1
- Date: Tue, 05 Aug 2025 16:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.068318
- Title: ReFuzzer: Feedback-Driven Approach to Enhance Validity of LLM-Generated Test Programs
- Title(参考訳): ReFuzzer: LLM生成テストプログラムの妥当性を高めるフィードバック駆動アプローチ
- Authors: Iti Shree, Karine Even-Mendoz, Tomasz Radzik,
- Abstract要約: 既存のコンパイラファジィは、しばしば構文的にも意味的にも無効なテストプログラムを生成する。
本稿では,LLM生成テストプログラムを精錬するフレームワークであるReFuzzerを紹介する。
我々は,LLVM/Clangをターゲットとした黒,グレー,ホワイトボックスファジィ手法におけるReFuzzerの有効性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing LLM-based compiler fuzzers often produce syntactically or semantically invalid test programs, limiting their effectiveness in exercising compiler optimizations and backend components. We introduce ReFuzzer, a framework for refining LLM-generated test programs by systematically detecting and correcting compilation and runtime violations (e.g. division by zero or array out-of-bounds accesses). ReFuzzer employs a feedback loop with a local LLM to validate and filter erroneous programs before execution, improving fuzzing effectiveness beyond crash detection and enabling the generation of diverse yet valid test programs. We evaluated ReFuzzer's effectiveness across black-, grey- and white-box fuzzing approaches targeting LLVM/Clang. ReFuzzer improved test programs' validity from 47.0-49.4% to 96.6-97.3%, with an average processing time of 2.9-3.5 s per test program on a dual-GPU machine. Further, refuzzing significantly increased code coverage in critical optimization and IR generation components. For example, vectorization coverage had an absolute improvement of 9.2%, 2.3%, and 7.1% in black-, grey-, and white-box fuzzing, enhancing testing effectiveness.
- Abstract(参考訳): 既存のLLMベースのコンパイラファッジャは、しばしば構文的にも意味的にも無効なテストプログラムを生成し、コンパイラ最適化とバックエンドコンポーネントの実行効率を制限している。
ReFuzzerは,コンパイルおよび実行時違反を系統的に検出し,修正することにより,LLM生成テストプログラムを精錬するフレームワークである。
ReFuzzerはローカルLLMとのフィードバックループを使用して、実行前に不正なプログラムの検証とフィルタリングを行い、クラッシュ検出以上のファジィ効果を改善し、多種多様な有効なテストプログラムの生成を可能にする。
LLVM/Clangをターゲットとした,黒,グレー,ホワイトボックスファジリングアプローチにおけるReFuzzerの有効性を評価した。
ReFuzzerはテストプログラムの妥当性を47.0-49.4%から96.6-97.3%に改善した。
さらに、リファジングは重要な最適化とIR生成コンポーネントにおけるコードカバレッジを大幅に向上させた。
例えば、ベクター化のカバレッジは、黒、グレー、ホワイトボックスファジングにおいて9.2%、2.3%、および7.1%と絶対的に改善され、テストの有効性が向上した。
関連論文リスト
- TestWeaver: Execution-aware, Feedback-driven Regression Testing Generation with Large Language Models [5.871736617580623]
回帰テストは、コードの変更が意図せずに既存の機能を壊さないようにする。
大規模言語モデル(LLM)の最近の進歩は、回帰テストのためのテスト生成を自動化することを約束している。
テスト生成をより効率的にガイドするために、軽量なプログラム分析を統合する新しいアプローチであるTestWeaverを提案する。
論文 参考訳(メタデータ) (2025-08-02T08:13:02Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - Input Reduction Enhanced LLM-based Program Repair [2.098274800451098]
テスト入力は失敗の根本原因の推論に不可欠です。
テストインプットがプロンプトで広まれば、これは"lost-in-the-middle"問題を引き起こし、修復性能を損なう可能性がある。
本稿では,テストインプットを自動的に削減し,フェール誘導動作を維持したAPRアプローチであるReduceeFixを提案する。
論文 参考訳(メタデータ) (2025-07-21T05:26:32Z) - Fuzzing-based Mutation Testing of C/C++ Software in Cyber-Physical Systems [2.362412515574206]
CとC++ソフトウェアの最先端の突然変異テスト技術は、シンボリック実行に依存している。
本稿では,C および C++ ソフトウェアにおけるファジテストの有効性を実証したファジテストに依存することを提案する。
論文 参考訳(メタデータ) (2025-03-31T13:55:27Z) - PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - WhiteFox: White-Box Compiler Fuzzing Empowered by Large Language Models [11.33856613057612]
提案するWhiteFoxは,ソースコード情報付きLarge Language Modelを用いた,最初のホワイトボックスコンパイラファザである。
WhiteFoxは、高度な最適化を行うための高品質なテストプログラムを生成することができる。
WhiteFoxはDLコンパイラの101のバグを発見した。
論文 参考訳(メタデータ) (2023-10-24T16:39:06Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。