Fugu-MT 論文翻訳(概要): Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models

論文の概要: Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models

arxiv url: http://arxiv.org/abs/2501.04312v1
Date: Wed, 08 Jan 2025 07:07:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 16:10:19.571698
Title: Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models
Title（参考訳）: 総括的なDLライブラリAPIを大規模言語モデルでファズリングする
Authors: Kunpeng Zhang, Shuai Wang, Jitao Han, Xiaogang Zhu, Xian Li, Shaohua Wang, Sheng Wen,
Abstract要約: AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。 DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
参考スコア（独自算出の注目度）: 49.214291813478695
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning (DL) libraries, widely used in AI applications, often contain vulnerabilities like buffer overflows and use-after-free errors. Traditional fuzzing struggles with the complexity and API diversity of DL libraries such as TensorFlow and PyTorch, which feature over 1,000 APIs. Testing all these APIs is challenging due to complex inputs and varied usage patterns. While large language models (LLMs) show promise in code understanding and generation, existing LLM-based fuzzers lack deep knowledge of API edge cases and struggle with test input generation. To address this, we propose DFUZZ, an LLM-driven fuzzing approach for DL libraries. DFUZZ leverages two insights: (1) LLMs can reason about error-triggering edge cases from API code and apply this knowledge to untested APIs, and (2) LLMs can accurately synthesize test programs to automate API testing. By providing LLMs with a "white-box view" of APIs, DFUZZ enhances reasoning and generation for comprehensive fuzzing. Experimental results show that DFUZZ outperforms state-of-the-art fuzzers in API coverage for TensorFlow and PyTorch, uncovering 37 bugs, with 8 fixed and 19 under developer investigation.
Abstract（参考訳）: AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリには、バッファオーバーフローや使用後エラーなどの脆弱性が含まれていることが多い。従来のファジィングは、TensorFlowやPyTorchといった、1000以上のAPIを備えたDLライブラリの複雑さとAPI多様性に苦慮している。これらのAPIをすべてテストすることは、複雑な入力とさまざまな利用パターンのために難しい。大規模言語モデル(LLM)はコード理解と生成の約束を示すが、既存のLLMベースのファジィザはAPIのエッジケースに関する深い知識がなく、テスト入力生成に苦労している。そこで本研究では,DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。 DFUZZは,(1)LLMがAPIコードからエラートリガのエッジケースを推論し,その知識を未テストのAPIに適用し,(2)LLMがテストプログラムを正確に合成してAPIテストを自動化する,という2つの知見を活用する。 APIの"ホワイトボックスビュー"をLLMに提供することで、DFUZZは包括的なファジィのための推論と生成を強化する。実験の結果、DFUZZはTensorFlowとPyTorchのAPIカバレッジにおいて最先端のファズーよりも優れており、37のバグを発見し、8の修正と19の開発者調査が行われた。

関連論文リスト

Identifying and Mitigating API Misuse in Large Language Models [26.4403427473915]
大規模言語モデル(LLM)が生成するコードのAPI誤用は、ソフトウェア開発において深刻な課題となっている。本稿では LLM 生成コードにおける API の誤用パターンについて,Python および Java 間でのメソッド選択とパラメータ使用法の両方を解析し,総合的研究を行った。上記の分類に基づくAPI誤用に対する新しいLCMベースの自動プログラム修復手法であるDr.Fixを提案する。
論文参考訳（メタデータ） (2025-03-28T18:43:12Z)
Subgraph-Oriented Testing for Deep Learning Libraries [9.78188667672054]
我々は,異なるハードウェアプラットフォーム上でディープラーニング(DL)ライブラリをテストするためのSORT(Subgraph-Oriented Realistic Testing)を提案する。 SORTは、テスト対象として、しばしばモデルグラフのサブグラフとして表現される、人気のあるAPIインタラクションパターンを採用している。 SORTは100%有効な入力生成率を実現し、既存のメソッドよりも精度の高いバグを検出し、シングルAPIテストで欠落したインタラクション関連のバグを明らかにする。
論文参考訳（メタデータ） (2024-12-09T12:10:48Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
2サンプルテスト問題であるモデル品質テストのような歪みの検出を形式化する。単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。次に、このテストを4つのLlamaモデルの商用推論APIに適用し、31のエンドポイントのうち11がMetaがリリースしたリファレンスウェイトとは異なる分布を提供することがわかった。
論文参考訳（メタデータ） (2024-10-26T18:34:53Z)
A Comprehensive Framework for Evaluating API-oriented Code Generation in Large Language Models [14.665460257371164]
GitHub CopilotやChatGPTのような大規模言語モデル(LLM)は、コード生成の強力なツールとして登場した。 API指向コード生成におけるLLMの機能を評価するために設計されたフレームワークであるAutoAPIEvalを提案する。
論文参考訳（メタデータ） (2024-09-23T17:22:09Z)
DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis [8.779035160734523]
テストは、ディープラーニング(DL)ライブラリの品質を保証するための主要なアプローチである。既存のテスト技術では、テストオラクルの構築を緩和するために差分テストを採用するのが一般的である。本稿では,DLライブラリテストのための新しい差分試験手法であるシーレンスを紹介する。
論文参考訳（メタデータ） (2024-06-12T07:06:38Z)
A Solution-based LLM API-using Methodology for Academic Information Seeking [49.096714812902576]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文参考訳（メタデータ） (2024-05-24T02:44:14Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)
HOPPER: Interpretative Fuzzing for Libraries [6.36596812288503]
HOPPERはドメイン知識を必要とせずにライブラリをファズできる。ライブラリファジィングの問題をインタプリタファジィングの問題に変換する。
論文参考訳（メタデータ） (2023-09-07T06:11:18Z)
Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。 TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文参考訳（メタデータ） (2023-07-28T07:43:13Z)
Security Knowledge-Guided Fuzzing of Deep Learning Libraries [9.930638894226004]
そこで我々は,Orionという新しいディープラーニングファザを提案する。 Orionはファジィルールのセットに基づいて、ガイドされたテスト入力生成とコーナーケーステスト入力生成を組み合わせる。
論文参考訳（メタデータ） (2023-06-05T21:38:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。