論文の概要: Semantic-Aware Fuzzing: An Empirical Framework for LLM-Guided, Reasoning-Driven Input Mutation
- arxiv url: http://arxiv.org/abs/2509.19533v1
- Date: Tue, 23 Sep 2025 19:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.589297
- Title: Semantic-Aware Fuzzing: An Empirical Framework for LLM-Guided, Reasoning-Driven Input Mutation
- Title(参考訳): Semantic-Aware Fuzzing: LLM-Guided, Reasoning-Driven Input Mutationのための実証的フレームワーク
- Authors: Mengdi Lu, Steven Ding, Furkan Alaca, Philippe Charland,
- Abstract要約: インターネット・オブ・Thingsデバイス、モバイル・プラットフォーム、自律システムのセキュリティ上の脆弱性は依然として重要だ。
従来の突然変異ベースのファジィザは、主に意味論的推論なしでバイトやビットレベルの編集を行う。
本稿では,Google の FuzzBench 上で LLM を AFL++ に統合するオープンソースフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.5336076422485075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Security vulnerabilities in Internet-of-Things devices, mobile platforms, and autonomous systems remain critical. Traditional mutation-based fuzzers -- while effectively explore code paths -- primarily perform byte- or bit-level edits without semantic reasoning. Coverage-guided tools such as AFL++ use dictionaries, grammars, and splicing heuristics to impose shallow structural constraints, leaving deeper protocol logic, inter-field dependencies, and domain-specific semantics unaddressed. Conversely, reasoning-capable large language models (LLMs) can leverage pretraining knowledge to understand input formats, respect complex constraints, and propose targeted mutations, much like an experienced reverse engineer or testing expert. However, lacking ground truth for "correct" mutation reasoning makes supervised fine-tuning impractical, motivating explorations of off-the-shelf LLMs via prompt-based few-shot learning. To bridge this gap, we present an open-source microservices framework that integrates reasoning LLMs with AFL++ on Google's FuzzBench, tackling asynchronous execution and divergent hardware demands (GPU- vs. CPU-intensive) of LLMs and fuzzers. We evaluate four research questions: (R1) How can reasoning LLMs be integrated into the fuzzing mutation loop? (R2) Do few-shot prompts yield higher-quality mutations than zero-shot? (R3) Can prompt engineering with off-the-shelf models improve fuzzing directly? and (R4) Which open-source reasoning LLMs perform best under prompt-only conditions? Experiments with Llama3.3, Deepseek-r1-Distill-Llama-70B, QwQ-32B, and Gemma3 highlight Deepseek as the most promising. Mutation effectiveness depends more on prompt complexity and model choice than shot count. Response latency and throughput bottlenecks remain key obstacles, offering directions for future work.
- Abstract(参考訳): インターネット・オブ・Thingsデバイス、モバイル・プラットフォーム、自律システムのセキュリティ上の脆弱性は依然として重要だ。
従来の突然変異ベースのファジィは、コードパスを効果的に探索する一方で、主に意味論的推論なしでバイトまたはビットレベルの編集を実行する。
AFL++のようなカバレッジ誘導ツールでは、辞書、文法、スプライシングヒューリスティックを使用して浅い構造制約を課し、より深いプロトコルロジック、フィールド間の依存関係、ドメイン固有のセマンティクスを未修正のまま残している。
逆に、推論能力を持つ大規模言語モデル(LLM)は、事前学習した知識を活用して入力形式を理解し、複雑な制約を尊重し、経験豊富なリバースエンジニアやテスト専門家のようにターゲットの突然変異を提案する。
しかし、「正しい」突然変異推論のための基礎的な真理が欠如しているため、教師による微調整の非現実的であり、即発的な数発の学習を通じて、既成のLSMの探索を動機づける。
このギャップを埋めるために、GoogleのFuzzBench上で、LLMとAFL++の推論を統合したオープンソースのマイクロサービスフレームワークを紹介します。
R1) LLMをファジィ突然変異ループに組み込むにはどうすればいいのか?
(R2)
数発のプロンプトはゼロショットよりも高品質な突然変異をもたらすか?
(R3)
オフザシェルフモデルによるエンジニアリングはファジィングを直接改善できるのか?
そして (R4) プロンプトのみの条件下で、どのオープンソース推論 LLM が最善を尽くすか?
Llama3.3、Deepseek-r1-Distill-Llama-70B、QwQ-32B、Gemma3による実験では、Deepseekが最も有望である。
突然変異の有効性は、ショット数よりも、迅速な複雑さとモデル選択に依存する。
応答レイテンシとスループットのボトルネックは依然として重要な障害であり、今後の作業の方向性を提供する。
関連論文リスト
- SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。
LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。
これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文 参考訳(メタデータ) (2025-07-16T09:46:58Z) - Automated Repair of Ambiguous Problem Descriptions for LLM-Based Code Generation [9.943472604121425]
自然言語(NL)の曖昧さは、ソフトウェアの品質を損なう可能性がある。
あいまいなNL記述の自動修復を導入する。
このアプローチをSpecFixというツールで実装しています。
論文 参考訳(メタデータ) (2025-05-12T06:47:53Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - LLAMAFUZZ: Large Language Model Enhanced Greybox Fuzzing [6.042114639413868]
特殊なファジィザは複雑な構造化データを扱うことができるが、文法にさらなる努力が必要であり、低スループットに悩まされる。
本稿では,構造化データに対するグレーボックスファジングを強化するために,Large Language Modelを活用する可能性について検討する。
LLMベースのファザであるLLAMAFUZZは、LLMのパワーを統合して、構造化データをファザリングに理解し、変更する。
論文 参考訳(メタデータ) (2024-06-11T20:48:28Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。