論文の概要: Discovering 100+ Compiler Defects in 72 Hours via LLM-Driven Semantic Logic Recomposition
- arxiv url: http://arxiv.org/abs/2601.12360v1
- Date: Sun, 18 Jan 2026 11:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.595929
- Title: Discovering 100+ Compiler Defects in 72 Hours via LLM-Driven Semantic Logic Recomposition
- Title(参考訳): LLM-Driven Semantic Logic Recompositionによる72時間で100以上のコンパイラ欠陥の発見
- Authors: Xinabang He, Yuanwei Chen, Hao Wu, Jikang Zhang, Zicheng Wang, Ligeng Chen, Junjie Peng, Haiyang Wei, Yi Qian, Tiantai Zhang, Linzhang Wang, Bing Mao,
- Abstract要約: プログラム生成に機能を組み合わせたコンパイラファズーであるFeatureFuzzを提案する。
24時間にわたるキャンペーンで、FeatureFuzzは167のユニークなクラッシュを発見し、これは第2位のファザーより2.78倍高い。
72時間のファジィキャンペーンを通じて、FeatureFuzzはGCCとLLVMの106のバグを特定した。
- 参考スコア(独自算出の注目度): 15.27741331581011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compilers constitute the foundational root-of-trust in software supply chains; however, their immense complexity inevitably conceals critical defects. Recent research has attempted to leverage historical bugs to design new mutation operators or fine-tune models to increase program diversity for compiler fuzzing.We observe, however, that bugs manifest primarily based on the semantics of input programs rather than their syntax. Unfortunately, current approaches, whether relying on syntactic mutation or general Large Language Model (LLM) fine-tuning, struggle to preserve the specific semantics found in the logic of bug-triggering programs. Consequently, these critical semantic triggers are often lost, resulting in a limitation of the diversity of generated programs. To explicitly reuse such semantics, we propose FeatureFuzz, a compiler fuzzer that combines features to generate programs. We define a feature as a decoupled primitive that encapsulates a natural language description of a bug-prone invariant, such as an out-of-bounds array access, alongside a concrete code witness of its realization. FeatureFuzz operates via a three-stage workflow: it first extracts features from historical bug reports, synthesizes coherent groups of features, and finally instantiates these groups into valid programs for compiler fuzzing. We evaluated FeatureFuzz on GCC and LLVM. Over 24-hour campaigns, FeatureFuzz uncovered 167 unique crashes, which is 2.78x more than the second-best fuzzer. Furthermore, through a 72-hour fuzzing campaign, FeatureFuzz identified 106 bugs in GCC and LLVM, 76 of which have already been confirmed by compiler developers, validating the approach's ability to stress-test modern compilers effectively.
- Abstract(参考訳): コンパイラはソフトウェアサプライチェーンの根幹をなすが、その膨大な複雑さは必然的に重大な欠陥を隠蔽する。
近年の研究では、新しい突然変異演算子やファインチューンモデルを設計し、コンパイラファジィのプログラムの多様性を高めるために歴史的バグを活用する試みが試みられているが、このバグは、構文ではなく、入力プログラムのセマンティクスに基づいたものであることが観察されている。
残念なことに、現在のアプローチでは、構文変異やLLM(General Large Language Model)の微調整に頼っても、バグトリガプログラムのロジックにある特定のセマンティクスを保存するのに苦労しています。
その結果、これらの重要なセマンティックトリガーはしばしば失われ、結果として生成されたプログラムの多様性が制限される。
このようなセマンティクスを明示的に再利用するために、我々はFeatureFuzzを提案する。
我々は、ある機能を、バグを起こしやすい不変量の自然言語記述をカプセル化した分離プリミティブとして定義し、その実現の具体的なコード証人とともに、アウト・オブ・バウンドの配列アクセスのような機能を定義した。
FeatureFuzzは3段階のワークフローを介して動作する。まずは過去のバグレポートから機能を抽出し、コヒーレントな機能のグループを合成し、最後にこれらのグループをコンパイラファジィのための有効なプログラムにインスタンス化する。
GCCとLLVMでFeatureFuzzを評価した。
24時間にわたるキャンペーンで、FeatureFuzzは167のユニークなクラッシュを発見し、これは第2位のファザーより2.78倍高い。
さらに、72時間のファジィキャンペーンを通じて、FeatureFuzzはGCCとLLVMの106のバグを特定した。
関連論文リスト
- Programming over Thinking: Efficient and Robust Multi-Constraint Planning [54.77940831026738]
SCOPEは、クエリ固有の推論をジェネリックコード実行から切り離すフレームワークである。
SCOPEは、コストとレイテンシを下げながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-14T02:58:07Z) - Hybrid Fuzzing with LLM-Guided Input Mutation and Semantic Feedback [0.0]
本稿では,静的および動的解析をLarge Language Model(LLM)誘導入力変異と意味フィードバックと統合したハイブリッドファジリングフレームワークを提案する。
本手法は,最先端のファジィよりも高速な時間対第一のバグ,意味的多様性の向上,およびユニークなバグの競合数を実現する。
論文 参考訳(メタデータ) (2025-11-06T02:38:24Z) - LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。
LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。
これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文 参考訳(メタデータ) (2025-07-16T09:46:58Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - Detecting the Root Cause Code Lines in Bug-Fixing Commits by Heterogeneous Graph Learning [1.5213722322518697]
自動欠陥予測ツールは、ソフトウェアプロジェクト内の欠陥に起因するソフトウェア変更を積極的に識別することができる。
異質で複雑なソフトウェアプロジェクトにおける既存の作業は、異質なコミット構造に苦労したり、コード変更におけるクロスライン依存関係を無視したりといった課題に直面し続けている。
本稿では,バグフィックスグラフ構築コンポーネント,コードセマンティックアグリゲーションコンポーネント,クロスラインセマンティック保持コンポーネントの3つの主要コンポーネントからなるRC_Detectorというアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-02T05:39:50Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - $\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。
単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文 参考訳(メタデータ) (2024-09-09T02:07:41Z) - Evolutionary Generative Fuzzing for Differential Testing of the Kotlin
Compiler [14.259471945857431]
JetBrainsが開発したKotlinコンパイラのバグ発見における差分テストの有効性について検討する。
そこで我々は,K1コンパイラとK2コンパイラの入力プログラムを生成するブラックボックス生成手法を提案する。
ケーススタディでは,提案手法がK1とK2のバグを効果的に検出している。
論文 参考訳(メタデータ) (2024-01-12T16:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。