論文の概要: FuzzCoder: Byte-level Fuzzing Test via Large Language Model
- arxiv url: http://arxiv.org/abs/2409.01944v1
- Date: Tue, 3 Sep 2024 14:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 01:08:09.482263
- Title: FuzzCoder: Byte-level Fuzzing Test via Large Language Model
- Title(参考訳): FuzzCoder: 大きな言語モデルによるバイトレベルのファジリングテスト
- Authors: Liqun Yang, Jian Yang, Chaoren Wei, Guanglin Niu, Ge Zhang, Yunli Wang, Linzheng ChaI, Wanxu Xia, Hongcheng Guo, Shun Zhang, Jiaheng Liu, Yuwei Yin, Junran Peng, Jiaxin Ma, Liang Sun, Zhoujun Li,
- Abstract要約: 我々は,攻撃を成功させることで,入力ファイルのパターンを学習するために,微調整された大言語モデル(FuzzCoder)を採用することを提案する。
FuzzCoderは、プログラムの異常な動作を引き起こすために、入力ファイル内の突然変異位置と戦略位置を予測することができる。
- 参考スコア(独自算出の注目度): 46.18191648883695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fuzzing is an important dynamic program analysis technique designed for finding vulnerabilities in complex software. Fuzzing involves presenting a target program with crafted malicious input to cause crashes, buffer overflows, memory errors, and exceptions. Crafting malicious inputs in an efficient manner is a difficult open problem and the best approaches often apply uniform random mutations to pre-existing valid inputs. In this work, we propose to adopt fine-tuned large language models (FuzzCoder) to learn patterns in the input files from successful attacks to guide future fuzzing explorations. Specifically, we develop a framework to leverage the code LLMs to guide the mutation process of inputs in fuzzing. The mutation process is formulated as the sequence-to-sequence modeling, where LLM receives a sequence of bytes and then outputs the mutated byte sequence. FuzzCoder is fine-tuned on the created instruction dataset (Fuzz-Instruct), where the successful fuzzing history is collected from the heuristic fuzzing tool. FuzzCoder can predict mutation locations and strategies locations in input files to trigger abnormal behaviors of the program. Experimental results show that FuzzCoder based on AFL (American Fuzzy Lop) gain significant improvements in terms of effective proportion of mutation (EPM) and number of crashes (NC) for various input formats including ELF, JPG, MP3, and XML.
- Abstract(参考訳): ファジィングは複雑なソフトウェアの脆弱性を見つけるために設計された重要な動的プログラム解析技術である。
ファジィングは、クラッシュ、バッファオーバーフロー、メモリエラー、例外を引き起こす悪質な入力を持つターゲットプログラムを提示する。
悪意のある入力を効率的な方法で作成することは難しいオープン問題であり、最良のアプローチは、しばしば既存の有効な入力に均一なランダムな突然変異を適用する。
本研究では,入力ファイルのパターンを攻撃から学習し,将来的なファジング探索を導くために,微調整された大規模言語モデル (FuzzCoder) を採用することを提案する。
具体的には、ファジィングにおける入力の突然変異過程を導くために、コードLLMを利用するフレームワークを開発する。
突然変異過程はシーケンス・ツー・シーケンス・モデリング(Sequence-to-Sequence modeling)として定式化され、LSMはバイトのシーケンスを受け取り、変更したバイトのシーケンスを出力する。
FuzzCoderは生成した命令データセット(Fuzz-Instruct)に基づいて微調整される。
FuzzCoderは、プログラムの異常な動作を引き起こすために、入力ファイル内の突然変異位置と戦略位置を予測することができる。
AFL(American Fuzzy Lop)をベースとしたFuzzCoderは,ELF,JPG,MP3,XMLなどの各種入力フォーマットに対して,EPMとNCの数で大幅に改善されている。
関連論文リスト
- LLAMAFUZZ: Large Language Model Enhanced Greybox Fuzzing [6.042114639413868]
特殊なファジィザは複雑な構造化データを扱うことができるが、文法にさらなる努力が必要であり、低スループットに悩まされる。
本稿では,構造化データに対するグレーボックスファジングを強化するために,Large Language Modelを活用する可能性について検討する。
LLMベースのファザであるLLAMAFUZZは、LLMのパワーを統合して、構造化データをファザリングに理解し、変更する。
論文 参考訳(メタデータ) (2024-06-11T20:48:28Z) - Generator-Based Fuzzers with Type-Based Targeted Mutation [1.4507298892594764]
以前の研究では、カバレッジ誘導型ファジィザは静的解析、テイント解析、制約解法を混合してこの問題に対処していた。
本稿では,Java GBFの文字列検索とともに,型ベースの突然変異を導入する。
ベースラインのGBFツールと比較すると、アプリケーションカバレッジは平均20%改善しており、サードパーティのコードを含めると、より大きく改善されている。
論文 参考訳(メタデータ) (2024-06-04T07:20:13Z) - Make out like a (Multi-Armed) Bandit: Improving the Odds of Fuzzer Seed Scheduling with T-Scheduler [8.447499888458633]
Fuzzingは高度にスケール可能なソフトウェアテスト技術であり、変更された入力で実行することでターゲットプログラムのバグを明らかにする。
マルチアームバンディット理論に基づくシードスケジューラであるT-Schedulerを提案する。
ファジィリングの35 CPU yr 以上の T-Scheduler を評価し,11 の最先端スケジューラと比較した。
論文 参考訳(メタデータ) (2023-12-07T23:27:55Z) - Rethinking Negative Pairs in Code Search [56.23857828689406]
我々は、重み項をInfoNCEに挿入する簡易で効果的なSoft-InfoNCE損失を提案する。
我々は,Soft-InfoNCEが学習したコード表現の分布を制御することと,より正確な相互情報推定の導出に与える影響を分析する。
論文 参考訳(メタデータ) (2023-10-12T06:32:42Z) - Fuzzing for CPS Mutation Testing [3.512722797771289]
本稿では, ファジテストを利用した突然変異検査手法を提案し, C および C++ ソフトウェアで有効であることが証明された。
実験により, ファジテストに基づく突然変異試験は, シンボル実行よりも高い頻度で生存変異体を殺傷することが明らかとなった。
論文 参考訳(メタデータ) (2023-08-15T16:35:31Z) - Fuzzing with Quantitative and Adaptive Hot-Bytes Identification [6.442499249981947]
アメリカのファジィ・ロック(fuzzy lop)はファジィ・ロック(fuzzy lop)と呼ばれるファジィ・ロック(fuzzy lop)と呼ばれるファジィ・ロック(fuzzy lop)と呼ばれるファジィ・ロック(fuzzy lop)と呼ばれるファジィ・ロック(fuzzy lop)ツールだ。
以下の原則に基づいて設計したツールという手法を提案する。
実世界の10のプログラムとLAVA-Mデータセットによる評価結果から,ツールキーブが分岐カバレッジを持続的に増加させ,他のファザよりも多くのバグを発見できた。
論文 参考訳(メタデータ) (2023-07-05T13:41:35Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual
Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。
プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。
本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T11:25:21Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。