論文の概要: Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models
- arxiv url: http://arxiv.org/abs/2501.04312v1
- Date: Wed, 08 Jan 2025 07:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:35.135449
- Title: Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models
- Title(参考訳): 総括的なDLライブラリAPIを大規模言語モデルでファズリングする
- Authors: Kunpeng Zhang, Shuai Wang, Jitao Han, Xiaogang Zhu, Xian Li, Shaohua Wang, Sheng Wen,
- Abstract要約: AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。
従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。
DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
- 参考スコア(独自算出の注目度): 49.214291813478695
- License:
- Abstract: Deep learning (DL) libraries, widely used in AI applications, often contain vulnerabilities like buffer overflows and use-after-free errors. Traditional fuzzing struggles with the complexity and API diversity of DL libraries such as TensorFlow and PyTorch, which feature over 1,000 APIs. Testing all these APIs is challenging due to complex inputs and varied usage patterns. While large language models (LLMs) show promise in code understanding and generation, existing LLM-based fuzzers lack deep knowledge of API edge cases and struggle with test input generation. To address this, we propose DFUZZ, an LLM-driven fuzzing approach for DL libraries. DFUZZ leverages two insights: (1) LLMs can reason about error-triggering edge cases from API code and apply this knowledge to untested APIs, and (2) LLMs can accurately synthesize test programs to automate API testing. By providing LLMs with a "white-box view" of APIs, DFUZZ enhances reasoning and generation for comprehensive fuzzing. Experimental results show that DFUZZ outperforms state-of-the-art fuzzers in API coverage for TensorFlow and PyTorch, uncovering 37 bugs, with 8 fixed and 19 under developer investigation.
- Abstract(参考訳): AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリには、バッファオーバーフローや使用後エラーなどの脆弱性が含まれていることが多い。
従来のファジィングは、TensorFlowやPyTorchといった、1000以上のAPIを備えたDLライブラリの複雑さとAPI多様性に苦慮している。
これらのAPIをすべてテストすることは、複雑な入力とさまざまな利用パターンのために難しい。
大規模言語モデル(LLM)はコード理解と生成の約束を示すが、既存のLLMベースのファジィザはAPIのエッジケースに関する深い知識がなく、テスト入力生成に苦労している。
そこで本研究では,DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
DFUZZは,(1)LLMがAPIコードからエラートリガのエッジケースを推論し,その知識を未テストのAPIに適用し,(2)LLMがテストプログラムを正確に合成してAPIテストを自動化する,という2つの知見を活用する。
APIの"ホワイトボックスビュー"をLLMに提供することで、DFUZZは包括的なファジィのための推論と生成を強化する。
実験の結果、DFUZZはTensorFlowとPyTorchのAPIカバレッジにおいて最先端のファズーよりも優れており、37のバグを発見し、8の修正と19の開発者調査が行われた。
関連論文リスト
- Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
2サンプルテスト問題であるモデル品質テストのような歪みの検出を形式化する。
単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。
次に、このテストを4つのLlamaモデルの商用推論APIに適用し、31のエンドポイントのうち11がMetaがリリースしたリファレンスウェイトとは異なる分布を提供することがわかった。
論文 参考訳(メタデータ) (2024-10-26T18:34:53Z) - An Empirical Study of API Misuses of Data-Centric Libraries [9.667988837321943]
本稿では,データ処理,数値計算,機械学習,可視化などの分野をカバーする5つのデータ中心ライブラリのAPI誤用に関する実証的研究を行う。
Stack OverflowとGitHubのデータを分析することで、これらのライブラリの誤用を特定します。
論文 参考訳(メタデータ) (2024-08-28T15:15:52Z) - How and Why LLMs Use Deprecated APIs in Code Completion? An Empirical Study [13.633501449498402]
大規模言語モデル(LLM)では、ライブラリの迅速かつ継続的な進化のために、コード補完は、正しく最新のアプリケーションプログラミングインタフェース(API)を使用するのに苦労する可能性がある。
この研究には、7つの高度なLLM、人気のあるPythonライブラリの145のAPIマッピング、28125の補完プロンプトが含まれていた。
我々は,textscReplaceAPI と textscInsertPrompt の2つの軽量固定手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T08:44:10Z) - DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis [8.779035160734523]
テストは、ディープラーニング(DL)ライブラリの品質を保証するための主要なアプローチである。
既存のテスト技術では、テストオラクルの構築を緩和するために差分テストを採用するのが一般的である。
本稿では,DLライブラリテストのための新しい差分試験手法であるシーレンスを紹介する。
論文 参考訳(メタデータ) (2024-06-12T07:06:38Z) - A Solution-based LLM API-using Methodology for Academic Information Seeking [49.096714812902576]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。
ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。
その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文 参考訳(メタデータ) (2024-05-24T02:44:14Z) - Fuzz Driver Synthesis for Rust Generic APIs [9.34200641681839]
本稿では,汎用APIを用いたRustライブラリのファズドライバ自動合成問題について検討する。
このような依存関係と型制約を解決することで、候補となるモノモルフィックAPIのコレクションを生成することができる。
29の人気のあるオープンソースライブラリによる実験結果から,我々のアプローチは,無効なファズドライバを低い速度で,有望な汎用APIカバレッジを実現することができることが示された。
論文 参考訳(メタデータ) (2023-12-17T10:24:34Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - HOPPER: Interpretative Fuzzing for Libraries [6.36596812288503]
HOPPERはドメイン知識を必要とせずにライブラリをファズできる。
ライブラリファジィングの問題をインタプリタファジィングの問題に変換する。
論文 参考訳(メタデータ) (2023-09-07T06:11:18Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。