論文の概要: MirrorFuzz: Leveraging LLM and Shared Bugs for Deep Learning Framework APIs Fuzzing
- arxiv url: http://arxiv.org/abs/2510.15690v1
- Date: Fri, 17 Oct 2025 14:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.656217
- Title: MirrorFuzz: Leveraging LLM and Shared Bugs for Deep Learning Framework APIs Fuzzing
- Title(参考訳): MirrorFuzz: ディープラーニングフレームワークAPIfuzzingにLLMと共有バグを活用する
- Authors: Shiwen Ou, Yuwei Li, Lu Yu, Chengkun Wei, Tingke Wen, Qiangpu Chen, Yu Chen, Haizhi Tang, Zulie Pan,
- Abstract要約: ディープラーニング(DL)フレームワークは、幅広い人工知能アプリケーションのバックボーンとして機能する。
DLフレームワーク内のバグは、高レベルのアプリケーションにおいて重要な問題に陥り、信頼性とセキュリティを損なう可能性がある。
DLフレームワークで共有バグを発見するための自動APIファズリングソリューションであるMirrorFuzzを提案する。
- 参考スコア(独自算出の注目度): 12.907848248343003
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep learning (DL) frameworks serve as the backbone for a wide range of artificial intelligence applications. However, bugs within DL frameworks can cascade into critical issues in higher-level applications, jeopardizing reliability and security. While numerous techniques have been proposed to detect bugs in DL frameworks, research exploring common API patterns across frameworks and the potential risks they entail remains limited. Notably, many DL frameworks expose similar APIs with overlapping input parameters and functionalities, rendering them vulnerable to shared bugs, where a flaw in one API may extend to analogous APIs in other frameworks. To address this challenge, we propose MirrorFuzz, an automated API fuzzing solution to discover shared bugs in DL frameworks. MirrorFuzz operates in three stages: First, MirrorFuzz collects historical bug data for each API within a DL framework to identify potentially buggy APIs. Second, it matches each buggy API in a specific framework with similar APIs within and across other DL frameworks. Third, it employs large language models (LLMs) to synthesize code for the API under test, leveraging the historical bug data of similar APIs to trigger analogous bugs across APIs. We implement MirrorFuzz and evaluate it on four popular DL frameworks (TensorFlow, PyTorch, OneFlow, and Jittor). Extensive evaluation demonstrates that MirrorFuzz improves code coverage by 39.92\% and 98.20\% compared to state-of-the-art methods on TensorFlow and PyTorch, respectively. Moreover, MirrorFuzz discovers 315 bugs, 262 of which are newly found, and 80 bugs are fixed, with 52 of these bugs assigned CNVD IDs.
- Abstract(参考訳): ディープラーニング(DL)フレームワークは、幅広い人工知能アプリケーションのバックボーンとして機能する。
しかし、DLフレームワーク内のバグは、高レベルのアプリケーションにおいて重大な問題に陥り、信頼性とセキュリティを損なう可能性がある。
DLフレームワークのバグを検出するための多くのテクニックが提案されているが、フレームワーク間の共通APIパターンと、それらが引き起こす潜在的なリスクについての研究は依然として限られている。
注目すべきなのは、多くのDLフレームワークが、同様のAPIを重複する入力パラメータと機能で公開し、共有バグに対して脆弱性を生じさせ、あるAPIの欠陥が他のフレームワークの類似APIに拡張される可能性があることだ。
この課題に対処するため、私たちは、DLフレームワークで共有バグを発見するための自動APIファズリングソリューションであるMirrorFuzzを提案します。
MirrorFuzzは3つのステージで動作する。 まず、MirrorFuzzはDLフレームワーク内の各APIの履歴バグデータを収集して、潜在的にバグの多いAPIを特定する。
第二に、特定のフレームワークにおける各バグの多いAPIと、他のDLフレームワーク内および複数の類似したAPIとを一致させる。
第3に、テスト中のAPIのコードを合成するために、大規模な言語モデル(LLM)を採用し、類似APIの履歴バグデータを活用して、API間の類似バグをトリガーする。
MirrorFuzzを実装し、4つの人気のあるDLフレームワーク(TensorFlow、PyTorch、OneFlow、Jittor)でそれを評価する。
大規模な評価では、TensorFlowとPyTorchの最先端メソッドと比較して、MirrorFuzzはコードカバレッジを39.92\%と98.20\%改善している。
さらに、MirrorFuzzは315のバグを発見し、そのうち262が新たに発見され、80のバグが修正され、52のバグがCNVD IDに割り当てられている。
関連論文リスト
- SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。
従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。
DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文 参考訳(メタデータ) (2025-01-08T07:07:22Z) - ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。
実験の結果、ExploreaCoderは、事前のAPI知識に欠けるモデルのパフォーマンスを大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-12-06T19:00:15Z) - A Comprehensive Framework for Evaluating API-oriented Code Generation in Large Language Models [14.665460257371164]
GitHub CopilotやChatGPTのような大規模言語モデル(LLM)は、コード生成の強力なツールとして登場した。
API指向コード生成におけるLLMの機能を評価するために設計されたフレームワークであるAutoAPIEvalを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:22:09Z) - CITADEL: Context Similarity Based Deep Learning Framework Bug Finding [36.34154201748415]
既存のディープラーニング(DL)フレームワークテストツールには、バグタイプが限定されている。
我々はCitadelを提案する。Citadelは効率と有効性の観点からバグの発見を高速化する手法だ。
論文 参考訳(メタデータ) (2024-06-18T01:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。