論文の概要: Mut4All: Fuzzing Compilers via LLM-Synthesized Mutators Learned from Bug Reports
- arxiv url: http://arxiv.org/abs/2507.19275v1
- Date: Fri, 25 Jul 2025 13:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.979248
- Title: Mut4All: Fuzzing Compilers via LLM-Synthesized Mutators Learned from Bug Reports
- Title(参考訳): Mut4All:バグレポートから学んだLLM合成ミュータレータによるコンパイラのファジリング
- Authors: Bo Wang, Pengyang Wang, Chong Chen, Qi Sun, Jieke Shi, Chengran Yang, Ming Deng, Youfang Lin, Zhou Yang, David Lo,
- Abstract要約: 突然変異ベースのファジィは、コンパイラのバグを発見するのに有効だが、現代言語のための高品質なミュータを設計することは依然として困難である。
Mut4Allは,大規模言語モデル(LLM)を用いてミュータを合成し,バグレポートからコンパイラ固有の知識を抽出する,完全に自動化された言語に依存しないフレームワークである。
- 参考スコア(独自算出の注目度): 35.036499451862355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mutation-based fuzzing is effective for uncovering compiler bugs, but designing high-quality mutators for modern languages with complex constructs (e.g., templates, macros) remains challenging. Existing methods rely heavily on manual design or human-in-the-loop correction, limiting scalability and cross-language generalizability. We present Mut4All, a fully automated, language-agnostic framework that synthesizes mutators using Large Language Models (LLMs) and compiler-specific knowledge from bug reports. It consists of three agents: (1) a mutator invention agent that identifies mutation targets and generates mutator metadata using compiler-related insights; (2) a mutator implementation synthesis agent, fine-tuned to produce initial implementations; and (3) a mutator refinement agent that verifies and corrects the mutators via unit-test feedback. Mut4All processes 1000 bug reports (500 Rust, 500 C++), yielding 319 Rust and 403 C++ mutators at ~$0.08 each via GPT-4o. Our customized fuzzer, using these mutators, finds 62 bugs in Rust compilers (38 new, 7 fixed) and 34 bugs in C++ compilers (16 new, 1 fixed). Mut4All outperforms existing methods in both unique crash detection and coverage, ranking first on Rust and second on C++.
- Abstract(参考訳): 突然変異ベースのファジィはコンパイラのバグを発見するのに有効だが、複雑な構造(テンプレート、マクロなど)を持つ現代言語向けの高品質なミュータを設計することは依然として困難である。
既存の手法は手動設計やヒューマン・イン・ザ・ループの修正に大きく依存しており、スケーラビリティと言語間の一般化性を制限している。
Mut4Allは,大規模言語モデル(LLM)を用いてミュータを合成し,バグレポートからコンパイラ固有の知識を抽出する,完全に自動化された言語に依存しないフレームワークである。
本発明は,(1)突然変異ターゲットを同定し,コンパイラ関連の知見を用いてミューテータメタデータを生成するミューテータ発明エージェント,(2)初期実装を生成するために微調整されたミューテータ実装合成エージェント,(3)単体テストフィードバックによりミューテータを検証・修正するミューテータ改良エージェントの3つのエージェントから構成される。
Mut4Allは1000のバグレポート(500 Rust, 500 C++)を処理する。
私たちのカスタマイズされたファズーは、これらのミュータを使って、Rustコンパイラの62のバグ(38の新規、7の修正)とC++コンパイラの34のバグ(16の新規、1の修正)を見つけました。
Mut4Allは、ユニークなクラッシュ検出とカバレッジの両方で既存のメソッドより優れており、Rustで1位、C++で2位である。
関連論文リスト
- Finding Compiler Bugs through Cross-Language Code Generator and Differential Testing [4.072167151876496]
CrossLangFuzzerは多種多様な型パラメータと複雑な継承構造を持つ言語横断のテストプログラムを生成する。
Kotlinコンパイラの10のバグ、Groovyコンパイラの4つのバグ、Scala 3コンパイラの7つのバグ、Scala 2コンパイラの2つのバグ、Javaコンパイラの1つのバグを発見した。
論文 参考訳(メタデータ) (2025-07-09T06:33:06Z) - BugGen: A Self-Correcting Multi-Agent LLM Pipeline for Realistic RTL Bug Synthesis [1.9291502706655312]
我々はBugGenを紹介した。これは完全な自律型マルチエージェントパイプラインで、RTLの機能的バグを生成し、挿入し、検証する。
BugGenはモジュールを分割し、クローズドループエージェントアーキテクチャを介して突然変異ターゲットを選択し、反復的な洗練とロールバック機構を採用している。
5つのOpenTitan IPブロックで評価され、BugGenは機能精度94%の500のユニークなバグを発生し、通常のマニュアル専門家の挿入より5倍速い時間当たり17.7のバグを検証した。
論文 参考訳(メタデータ) (2025-06-12T09:02:20Z) - CRUST-Bench: A Comprehensive Benchmark for C-to-safe-Rust Transpilation [63.23120252801889]
CRUST-Benchは100のCリポジトリのデータセットで、それぞれが安全なRustとテストケースで手書きのインターフェースとペアリングされている。
我々は、このタスクで最先端の大規模言語モデル(LLM)を評価し、安全で慣用的なRust生成が依然として難しい問題であることを確認した。
最高のパフォーマンスモデルであるOpenAI o1は、ワンショット設定で15タスクしか解決できない。
論文 参考訳(メタデータ) (2025-04-21T17:33:33Z) - EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。
2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。
19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Fuzzing MLIR Compilers with Custom Mutation Synthesis [6.617861009996863]
我々は、文法に基づくファジィとカスタム合成突然変異を組み合わせたSynTHFUZZと呼ばれる新しいテストジェネレータを開発した。
各方言のカスタム突然変異演算子を手動で定義する必要がなくなる。
評価の結果,SynTHFUZはMLIRの方言対のカバレッジを1.75倍に改善し,ブランチのカバレッジを1.22倍に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-25T18:00:37Z) - MMT: Mutation Testing of Java Bytecode with Model Transformation -- An Illustrative Demonstration [0.11470070927586014]
突然変異テストは、テストスイートの堅牢性をチェックするアプローチである。
本稿では,Javaバイトコードの変異をモデル変換によって柔軟に定義できるモデル駆動型アプローチを提案する。
MMTと呼ばれるツールは、オブジェクト指向構造を変更するための高度な突然変異演算子によって拡張されている。
論文 参考訳(メタデータ) (2024-04-22T11:33:21Z) - LLMorpheus: Mutation Testing using Large Language Models [5.448283690603358]
本稿では,プログラムのソースコード内の指定された場所でプレースホルダーを導入する変異検査手法を提案する。
我々はLLMorpheusがStrykerJSでは生成できない既存のバグに似た変異体を生産できると考えている。
論文 参考訳(メタデータ) (2024-04-15T17:25:14Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。