論文の概要: LLAMAFUZZ: Large Language Model Enhanced Greybox Fuzzing
- arxiv url: http://arxiv.org/abs/2406.07714v2
- Date: Thu, 13 Jun 2024 21:11:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 18:03:47.134012
- Title: LLAMAFUZZ: Large Language Model Enhanced Greybox Fuzzing
- Title(参考訳): LLAMAFUZZ: 大規模言語モデルによるGreybox Fuzzingの拡張
- Authors: Hongxiang Zhang, Yuyang Rong, Yifeng He, Hao Chen,
- Abstract要約: 特殊なファジィザは複雑な構造化データを扱うことができるが、文法にさらなる努力が必要であり、低スループットに悩まされる。
本稿では,構造化データに対するグレーボックスファジングを強化するために,Large Language Modelを活用する可能性について検討する。
LLMベースのファザであるLLAMAFUZZは、LLMのパワーを統合して、構造化データをファザリングに理解し、変更する。
- 参考スコア(独自算出の注目度): 6.042114639413868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Greybox fuzzing has achieved success in revealing bugs and vulnerabilities in programs. However, randomized mutation strategies have limited the fuzzer's performance on structured data. Specialized fuzzers can handle complex structured data, but require additional efforts in grammar and suffer from low throughput. In this paper, we explore the potential of utilizing the Large Language Model to enhance greybox fuzzing for structured data. We utilize the pre-trained knowledge of LLM about data conversion and format to generate new valid inputs. We further fine-tuned it with paired mutation seeds to learn structured format and mutation strategies effectively. Our LLM-based fuzzer, LLAMAFUZZ, integrates the power of LLM to understand and mutate structured data to fuzzing. We conduct experiments on the standard bug-based benchmark Magma and a wide variety of real-world programs. LLAMAFUZZ outperforms our top competitor by 41 bugs on average. We also identified 47 unique bugs across all trials. Moreover, LLAMAFUZZ demonstrated consistent performance on both bug trigger and bug reached. Compared to AFL++, LLAMAFUZZ achieved 27.19% more branches in real-world program sets on average. We also demonstrate a case study to explain how LLMs enhance the fuzzing process in terms of code coverage.
- Abstract(参考訳): Greyboxのファジィは、プログラムのバグや脆弱性を明らかにすることに成功している。
しかし、ランダム化された突然変異戦略は、構造データに対するファジィザの性能を制限している。
特殊なファジィザは複雑な構造化データを扱うことができるが、文法にさらなる努力が必要であり、低スループットに悩まされる。
本稿では,構造化データに対するグレーボックスファジングを強化するために,Large Language Modelを活用する可能性について検討する。
我々は、データ変換とフォーマットに関するLLMの事前学習知識を利用して、新しい有効な入力を生成する。
さらに、組換え突然変異種を用いて微調整を行い、構造化形式と突然変異戦略を効果的に学習した。
LLMベースのファザであるLLAMAFUZZは、LLMのパワーを統合して、構造化データをファザリングに理解し、変更する。
我々は,標準的なバグベースのベンチマークMagmaと,さまざまな実世界のプログラムで実験を行う。
LLAMAFUZZは、平均して41のバグでトップのライバルより優れています。
また、すべてのトライアルで47のユニークなバグを特定しました。
さらに、LLAMAFUZはバグトリガとバグ到達の両方で一貫したパフォーマンスを示した。
AFL++と比較すると、LLAMAFUZは現実世界のプログラムセットで平均27.19%以上の分岐を達成した。
また、コードカバレッジの観点からLLMがファジィ処理をどのように強化するかを説明するためのケーススタディも紹介する。
関連論文リスト
- FuzzCoder: Byte-level Fuzzing Test via Large Language Model [46.18191648883695]
我々は,攻撃を成功させることで,入力ファイルのパターンを学習するために,微調整された大言語モデル(FuzzCoder)を採用することを提案する。
FuzzCoderは、プログラムの異常な動作を引き起こすために、入力ファイル内の突然変異位置と戦略位置を予測することができる。
論文 参考訳(メタデータ) (2024-09-03T14:40:31Z) - Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - CovRL: Fuzzing JavaScript Engines with Coverage-Guided Reinforcement
Learning for LLM-based Mutation [2.5864634852960444]
本稿では,大規模言語モデル(LLM)とカバレッジフィードバックからの強化学習を組み合わせた,CovRL(Coverage-guided Reinforcement Learning)と呼ばれる新しい手法を提案する。
CovRL-Fuzzは、39の既知の脆弱性と11のCVEを含む、最新のJavaScriptエンジンにおける48の実際のセキュリティ関連バグを特定している。
論文 参考訳(メタデータ) (2024-02-19T15:30:40Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Make out like a (Multi-Armed) Bandit: Improving the Odds of Fuzzer Seed Scheduling with T-Scheduler [8.447499888458633]
Fuzzingは高度にスケール可能なソフトウェアテスト技術であり、変更された入力で実行することでターゲットプログラムのバグを明らかにする。
マルチアームバンディット理論に基づくシードスケジューラであるT-Schedulerを提案する。
ファジィリングの35 CPU yr 以上の T-Scheduler を評価し,11 の最先端スケジューラと比較した。
論文 参考訳(メタデータ) (2023-12-07T23:27:55Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Fuzzing with Quantitative and Adaptive Hot-Bytes Identification [6.442499249981947]
アメリカのファジィ・ロック(fuzzy lop)はファジィ・ロック(fuzzy lop)と呼ばれるファジィ・ロック(fuzzy lop)と呼ばれるファジィ・ロック(fuzzy lop)と呼ばれるファジィ・ロック(fuzzy lop)と呼ばれるファジィ・ロック(fuzzy lop)ツールだ。
以下の原則に基づいて設計したツールという手法を提案する。
実世界の10のプログラムとLAVA-Mデータセットによる評価結果から,ツールキーブが分岐カバレッジを持続的に増加させ,他のファザよりも多くのバグを発見できた。
論文 参考訳(メタデータ) (2023-07-05T13:41:35Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Towards Generating Functionally Correct Code Edits from Natural Language
Issue Descriptions [11.327913840111378]
Defects4J-NL2Fixは、人気のあるDefects4Jデータセットから283のJavaプログラムのデータセットで、バグ修正の高レベルな記述を付加します。
本研究は,この課題に対するいくつかの最先端LCMの性能を実証的に評価する。
論文 参考訳(メタデータ) (2023-04-07T18:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。