論文の概要: May the Feedback Be with You! Unlocking the Power of Feedback-Driven Deep Learning Framework Fuzzing via LLMs
- arxiv url: http://arxiv.org/abs/2506.17642v1
- Date: Sat, 21 Jun 2025 08:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.523358
- Title: May the Feedback Be with You! Unlocking the Power of Feedback-Driven Deep Learning Framework Fuzzing via LLMs
- Title(参考訳): フィードバックがあなたと一緒にいよう! フィードバック駆動型ディープラーニングフレームワークのファジィングのパワーをLLMで解き放つ
- Authors: Shaoyu Yang, Chunrong Fang, Haifeng Lin, Xiang Chen, Zhenyu Chen,
- Abstract要約: ディープラーニング(DL)フレームワークのバグを見つけるためのシンプルで効果的な方法はファズテスト(ファズリング)です。
本稿では,DLフレームワークに対するフィードバック駆動ファジィのシールを壊すためのFUELを提案する。
FUELはPyTorchとサマリーの104のバグを検出し、93が新たなバグとして確認され、47がすでに修正され、5がCVE IDに割り当てられた。
- 参考スコア(独自算出の注目度): 13.976286931563006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence (AI) Infrastructures, represented by Deep Learning (DL) frameworks, have served as fundamental DL systems over the last decade. However, the bugs in DL frameworks could lead to catastrophic consequences in some critical scenarios (e.g., healthcare and autonomous driving). A simple yet effective way to find bugs in DL frameworks is fuzz testing (Fuzzing). Unfortunately, existing fuzzing techniques have not comprehensively considered multiple types of feedback. Additionally, they analyze feedback in a coarse-grained manner, such as mutating the test cases only according to whether the coverage increases. Recently, researchers introduced Large Language Models (LLMs) into fuzzing. However, current LLM-based fuzzing techniques only focus on using LLMs to generate test cases while overlooking their potential to analyze feedback information, failing to create more valid and diverse test cases. To fill this gap, we propose FUEL to break the seal of Feedback-driven fuzzing for DL frameworks. The backbone of FUEL comprises two LLM-based agents, namely analysis LLM and generation LLM. Analysis LLM agent infers analysis summaries from feedback information, while the generation LLM agent creates tests guided by these analysis summaries. So far, FUEL has detected 104 bugs for PyTorch and TensorFlow, with 93 confirmed as new bugs, 47 already fixed, and 5 assigned with CVE IDs. Our work indicates that considering multiple types of feedback is beneficial to fuzzing performance, and leveraging LLMs to analyze feedback information is a promising direction. Our artifact is available at https://github.com/NJU-iSE/FUEL
- Abstract(参考訳): ディープラーニング(DL)フレームワークで代表される人工知能(AI)インフラストラクチャは、過去10年間、基本的なDLシステムとして機能してきた。
しかし、DLフレームワークのバグはいくつかの重要なシナリオ(ヘルスケアや自動運転など)で破滅的な結果をもたらす可能性がある。
DLフレームワークのバグを見つけるためのシンプルで効果的な方法はファズテスト(Fuzzing)です。
残念ながら、既存のファジィング技術は、複数のタイプのフィードバックを包括的に考慮していない。
さらに、カバレッジが増加するかどうかに応じてのみテストケースを変更するなど、粗い方法でフィードバックを分析する。
最近、研究者はLarge Language Models (LLM) をファジングに導入した。
しかし、現在のLLMベースのファジリング技術は、LLMを使用してテストケースを生成することのみに焦点を当て、フィードバック情報を分析する可能性を見落とし、より有効で多様なテストケースを作成することに失敗している。
このギャップを埋めるために、我々は FUEL を提案し、DL フレームワークに対する Feedback-driven fuzzing のシールを壊す。
FUELのバックボーンは、2つのLDM基剤、すなわち解析LSMと生成LMからなる。
解析LDMエージェントは、フィードバック情報から解析要約を推測し、生成LDMエージェントは、これらの解析要約によってガイドされたテストを作成する。
これまでのところ、FUELはPyTorchとTensorFlowの104のバグを検出しており、93が新たなバグとして確認され、47がすでに修正され、5がCVE IDに割り当てられている。
本研究は,複数種類のフィードバックを考慮すればファジング性能に有益であり,フィードバック情報の解析にLLMを活用することが有望な方向であることを示唆している。
私たちのアーティファクトはhttps://github.com/NJU-iSE/FUELで公開されています。
関連論文リスト
- Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。
従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。
DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文 参考訳(メタデータ) (2025-01-08T07:07:22Z) - LLAMAFUZZ: Large Language Model Enhanced Greybox Fuzzing [6.042114639413868]
特殊なファジィザは複雑な構造化データを扱うことができるが、文法にさらなる努力が必要であり、低スループットに悩まされる。
本稿では,構造化データに対するグレーボックスファジングを強化するために,Large Language Modelを活用する可能性について検討する。
LLMベースのファザであるLLAMAFUZZは、LLMのパワーを統合して、構造化データをファザリングに理解し、変更する。
論文 参考訳(メタデータ) (2024-06-11T20:48:28Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - The Hitchhiker's Guide to Program Analysis: A Journey with Large
Language Models [18.026567399243]
大規模言語モデル(LLM)は静的解析に代わる有望な選択肢を提供する。
本稿では,LLM支援静的解析のオープン空間を深く掘り下げる。
LLiftは,静的解析ツールとLLMの両方を併用した,完全に自動化されたフレームワークである。
論文 参考訳(メタデータ) (2023-08-01T02:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。