論文の概要: Low-Cost and Comprehensive Non-textual Input Fuzzing with LLM-Synthesized Input Generators
- arxiv url: http://arxiv.org/abs/2501.19282v1
- Date: Fri, 31 Jan 2025 16:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:55.938499
- Title: Low-Cost and Comprehensive Non-textual Input Fuzzing with LLM-Synthesized Input Generators
- Title(参考訳): LLM合成入力ジェネレータを用いた低コスト・包括的非テキスト入力ファズリング
- Authors: Kunpeng Zhang, Zongjie Li, Daoyuan Wu, Shuai Wang, Xin Xia,
- Abstract要約: 非テキスト入力に対する文法認識ファジィ化を実現するための新しい手法を提案する。
LLMは入力ジェネレータの合成と変更に長け、ローカルオプティマからのジャンプを可能にする。
G2FUZZはAFL++、Fuzztruction、FormatFuzzerといったSOTAツールよりもコードカバレッジとバグ発見の点で優れている。
- 参考スコア(独自算出の注目度): 25.199440800244442
- License:
- Abstract: Modern software often accepts inputs with highly complex grammars. Recent advances in large language models (LLMs) have shown that they can be used to synthesize high-quality natural language text and code that conforms to the grammar of a given input format. Nevertheless, LLMs are often incapable or too costly to generate non-textual outputs, such as images, videos, and PDF files. This limitation hinders the application of LLMs in grammar-aware fuzzing. We present a novel approach to enabling grammar-aware fuzzing over non-textual inputs. We employ LLMs to synthesize and also mutate input generators, in the form of Python scripts, that generate data conforming to the grammar of a given input format. Then, non-textual data yielded by the input generators are further mutated by traditional fuzzers (AFL++) to explore the software input space effectively. Our approach, namely G2FUZZ, features a hybrid strategy that combines a holistic search driven by LLMs and a local search driven by industrial quality fuzzers. Two key advantages are: (1) LLMs are good at synthesizing and mutating input generators and enabling jumping out of local optima, thus achieving a synergistic effect when combined with mutation-based fuzzers; (2) LLMs are less frequently invoked unless really needed, thus significantly reducing the cost of LLM usage. We have evaluated G2FUZZ on a variety of input formats, including TIFF images, MP4 audios, and PDF files. The results show that G2FUZZ outperforms SOTA tools such as AFL++, Fuzztruction, and FormatFuzzer in terms of code coverage and bug finding across most programs tested on three platforms: UNIFUZZ, FuzzBench, and MAGMA.
- Abstract(参考訳): 現代のソフトウェアは、しばしば非常に複雑な文法を持つ入力を受け入れる。
大規模言語モデル(LLM)の最近の進歩は、与えられた入力形式の文法に適合する高品質な自然言語テキストやコードを合成するのに使用できることを示している。
それでも、LLMは画像、ビデオ、PDFファイルなどのテキスト以外の出力を生成するのに、しばしば不可能またはコストがかかりすぎる。
この制限は文法を意識したファジングにおけるLLMの適用を妨げる。
非テキスト入力に対する文法認識ファジィ化を実現するための新しい手法を提案する。
我々は LLM を用いて、与えられた入力形式の文法に適合したデータを生成する、Python スクリプトの形式で入力ジェネレータを合成し、変更する。
そして、入力ジェネレータが出力する非テキストデータはさらに従来のファズー(AFL++)によって変更され、ソフトウェア入力空間を効果的に探索する。
我々のアプローチ、すなわちG2FUZZは、LLMによって駆動される全体探索と、産業品質ファジィによって駆動される局所探索を組み合わせたハイブリッド戦略を特徴としている。
1) LLMは入力ジェネレータの合成・突然変異に優れ, 局所的最適解離が可能であり, 突然変異ベースのファジエと組み合わせた場合の相乗効果, 2) LLMの使用コストを大幅に削減できる。
我々は、TIFF画像、MP4オーディオ、PDFファイルなど、様々な入力フォーマットでG2FUZを評価した。
G2FUZは、AFL++、Fuzztruction、FormatFuzzerといったSOTAツールよりも、コードカバレッジと、UNIFUZZ、FuzzBench、MAGMAの3つのプラットフォームでテストされたほとんどのプログラムのバグ発見に優れていた。
関連論文リスト
- FuzzCoder: Byte-level Fuzzing Test via Large Language Model [46.18191648883695]
我々は,攻撃を成功させることで,入力ファイルのパターンを学習するために,微調整された大言語モデル(FuzzCoder)を採用することを提案する。
FuzzCoderは、プログラムの異常な動作を引き起こすために、入力ファイル内の突然変異位置と戦略位置を予測することができる。
論文 参考訳(メタデータ) (2024-09-03T14:40:31Z) - Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
emphCool-Fusionは、アンサンブルアプローチのようないかなるタイプのトレーニングも必要としないメソッドである。
emphCool-Fusionは3つの強力なLLMの精度を8%から17.8%向上させる。
論文 参考訳(メタデータ) (2024-07-29T09:02:19Z) - LLAMAFUZZ: Large Language Model Enhanced Greybox Fuzzing [6.042114639413868]
特殊なファジィザは複雑な構造化データを扱うことができるが、文法にさらなる努力が必要であり、低スループットに悩まされる。
本稿では,構造化データに対するグレーボックスファジングを強化するために,Large Language Modelを活用する可能性について検討する。
LLMベースのファザであるLLAMAFUZZは、LLMのパワーを統合して、構造化データをファザリングに理解し、変更する。
論文 参考訳(メタデータ) (2024-06-11T20:48:28Z) - Text-like Encoding of Collaborative Information in Large Language Models for Recommendation [58.87865271693269]
BinLLMはLarge Language Models for Recommendation (LLMRec)とシームレスに連携する新しい手法である。
BinLLMは、外部モデルからの協調的な埋め込みをバイナリシーケンスに変換する。
BinLLMは、ドット決定記法を用いてバイナリシーケンスを圧縮するオプションを提供し、過度に長い長さを避ける。
論文 参考訳(メタデータ) (2024-06-05T12:45:25Z) - Grammar-Aligned Decoding [30.972850034752884]
LLM(Large Language Models)は、プログラムコード、数学的公式、整形されたマークアップなどの高度に構造化された出力を確実に生成するのに苦労する。
制約付き復号法は、LLMが出力できるトークンを各ステップで厳格に制限し、出力が与えられた制約と一致することを保証することによってこの問題を軽減する。
本稿では,GCD技術がLLMの分布を歪め,文法的だがLLMに比例しない確率で現れる出力を導出することを示す。
論文 参考訳(メタデータ) (2024-05-31T17:39:15Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - SynCode: LLM Generation with Grammar Augmentation [5.174301428591665]
SynCodeは、LLMによる効率的で一般的なデコードのための新しいフレームワークである。
形式言語のCFGに対する健全性と完全性を保証し、無効なトークンをフィルタリングしながら有効なトークンを効果的に保持する。
我々の実験は、SynCodeがすべての構文エラーを排除し、最先端のベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2024-03-03T22:38:35Z) - BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs'
Generation [60.77990074569754]
本稿では,凍結した事前学習言語モデルを,より汎用的な生成に向けて操る,計算効率のよいフレームワークを提案する。
具体的には、まず、文に常識的スコアを割り当てる参照なし評価器を構築する。
次に、スコアラをコモンセンス知識のオラクルとして使用し、NADOと呼ばれる制御可能な生成法を拡張して補助ヘッドを訓練する。
論文 参考訳(メタデータ) (2023-10-25T23:32:12Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。