Fugu-MT 論文翻訳(概要): Benchmarking Deep Learning Fuzzers

論文の概要: Benchmarking Deep Learning Fuzzers

arxiv url: http://arxiv.org/abs/2310.06912v1
Date: Tue, 10 Oct 2023 18:09:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 03:22:05.400275
Title: Benchmarking Deep Learning Fuzzers
Title（参考訳）: deep learning fuzzersのベンチマーク
Authors: Nima Shiri Harzevili, Hung Viet Pham, Song Wang
Abstract要約: ベンチマークでは、最先端の3つのDLファザ、FreeFuzz、DeepRel、DocTerを、その命令に従って実行します。これらのファジィザは、ベンチマークデータセットで収集された多くの実際のバグを検出することができません。我々の系統分析では、これらのファジッターが実際のバグを検知する能力に影響を及ぼす4つの主要な、広く、共通の要因を同定する。
参考スコア（独自算出の注目度）: 11.118370064698869
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we set out to conduct the first ground-truth empirical evaluation of state-of-the-art DL fuzzers. Specifically, we first manually created an extensive DL bug benchmark dataset, which includes 627 real-world DL bugs from TensorFlow and PyTorch libraries reported by users between 2020 and 2022. Then we run three state-of-the-art DL fuzzers, i.e., FreeFuzz, DeepRel, and DocTer, on the benchmark by following their instructions. We find that these fuzzers are unable to detect many real bugs collected in our benchmark dataset. Specifically, most (235) of the 257 applicable bugs cannot be detected by any fuzzer. Our systematic analysis further identifies four major, broad, and common factors that affect these fuzzers' ability to detect real bugs. These findings present opportunities to improve the performance of the fuzzers in future work. As a proof of concept, we propose a lightweight corner case generator as an extension to the three DL fuzzers, which simply covers several boundary values as well as DL-specific data types. It helps FreeFuzz, DeepRel, and DocTer detect 12, 12, and 14 more bugs, respectively, that were overlooked by the original fuzzers. Overall, this work complements prior studies on DL fuzzers with an extensive performance evaluation and provides a benchmark for future DL library fuzzing studies. Also, our proposed corner case generator proves that the fuzzers can be extended to detect more bugs by extending their internal fuzzing logic based on the insights provided in root cause analysis.
Abstract（参考訳）: そこで本研究では,最先端のDLファジイザの地上試験評価を行った。具体的には、2020年から2022年の間に報告されたTensorFlowとPyTorchライブラリの627の実際のDLバグを含む、広範なDLバグベンチマークデータセットを手作業で作成しました。次に、彼らの指示に従い、ベンチマークで3つの最先端のDLファザ、すなわちFreeFuzz、DeepRel、DocTerを実行します。これらのファジィザは、ベンチマークデータセットで収集された多くの実際のバグを検出することができません。具体的には、257のバグのうち、ほとんどの(235)はファザーによって検出できない。我々の系統分析では、これらのファジッターが実際のバグを検知する能力に影響を及ぼす4つの主要な、広く、共通の要因を同定する。これらの結果は,今後の作業におけるファジィアの性能向上の機会となる。概念実証として,3つのDLファザの拡張として,複数の境界値とDL固有のデータ型を単純にカバーする軽量コーナーケースジェネレータを提案する。 freefuzz、deeprel、docterはオリジナルのfuzzersで見過ごされていた12のバグと14のバグを検出するのに役立つ。総じて、この研究はdlfuzzersの以前の研究を広範囲のパフォーマンス評価で補完し、将来のdlライブラリfuzzing studiesのベンチマークを提供する。また,本研究のコーナーケースジェネレータは,根本原因分析の知見に基づいて,内部ファジィングロジックを拡張して,より多くのバグを検出することができることを示した。

関連論文リスト

May the Feedback Be with You! Unlocking the Power of Feedback-Driven Deep Learning Framework Fuzzing via LLMs [13.976286931563006]
ディープラーニング(DL)フレームワークのバグを見つけるためのシンプルで効果的な方法はファズテスト(ファズリング)です。本稿では,DLフレームワークに対するフィードバック駆動ファジィのシールを壊すためのFUELを提案する。 FUELはPyTorchとサマリーの104のバグを検出し、93が新たなバグとして確認され、47がすでに修正され、5がCVE IDに割り当てられた。
論文参考訳（メタデータ） (2025-06-21T08:51:53Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。我々は、Dragon+やContrieverのようなリトリーバーに対する、短いドキュメントの好みなどのバイアスの影響を定量化する。私たちは大きな脆弱性を発見し、リトリバーが短いドキュメント、早い位置、繰り返しのエンティティ、リテラルマッチを好んで、答えの存在を無視しながら表示します。
論文参考訳（メタデータ） (2025-03-06T23:23:13Z)
Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。 DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文参考訳（メタデータ） (2025-01-08T07:07:22Z)
CKGFuzzer: LLM-Based Fuzz Driver Generation Enhanced By Code Knowledge Graph [29.490817477791357]
本稿では,コード知識グラフによって駆動され,インテリジェントエージェントシステムによって駆動されるファズテスト手法を提案する。コードナレッジグラフは、そのグラフの各ノードがコードエンティティを表す、プログラム間解析によって構築される。 CKGFuzzerは最先端技術と比較してコードカバレッジが平均8.73%向上した。
論文参考訳（メタデータ） (2024-11-18T12:41:16Z)
Pipe-Cleaner: Flexible Fuzzing Using Security Policies [0.07499722271664144]
Pipe-CleanerはCコードの脆弱性を検出し解析するシステムである。これは、タグベースのランタイムリファレンスモニターによって強制されるフレキシブルな開発者設計のセキュリティポリシーに基づいている。いくつかのヒープ関連のセキュリティ脆弱性に対して、このアプローチの可能性を実証する。
論文参考訳（メタデータ） (2024-10-31T23:35:22Z)
G-Fuzz: A Directed Fuzzing Framework for gVisor [48.85077340822625]
G-FuzzはgVisor用のファジィフレームワークである。 G-Fuzzは業界に展開され、深刻な脆弱性を複数発見している。
論文参考訳（メタデータ） (2024-09-20T01:00:22Z)
FuzzCoder: Byte-level Fuzzing Test via Large Language Model [46.18191648883695]
我々は,攻撃を成功させることで,入力ファイルのパターンを学習するために,微調整された大言語モデル(FuzzCoder)を採用することを提案する。 FuzzCoderは、プログラムの異常な動作を引き起こすために、入力ファイル内の突然変異位置と戦略位置を予測することができる。
論文参考訳（メタデータ） (2024-09-03T14:40:31Z)
Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文参考訳（メタデータ） (2024-03-27T15:15:14Z)
FuzzSlice: Pruning False Positives in Static Analysis Warnings Through Function-Level Fuzzing [5.748423489074936]
本稿では,静的解析警告中の偽陽性を自動生成するフレームワークであるFuzzSliceを提案する。作業の基盤となる重要な洞察は、所定の時間予算で関数レベルでファジットされた場合、クラッシュを発生しない警告が偽陽性である、ということです。 FuzzSliceは、オープンソースリポジトリでは62.26%、Julietデータセットでは100%の偽陽性を減少させる。
論文参考訳（メタデータ） (2024-02-02T21:49:24Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Prompt Fuzzing for Fuzz Driver Generation [6.238058387665971]
本稿では,プロンプトファジングのためのカバーガイドファジングであるPromptFuzzを提案する。未発見のライブラリコードを探索するためにファズドライバを反復的に生成する。 PromptFuzzはOSS-FuzzとHopperの2倍のブランチカバレッジを達成した。
論文参考訳（メタデータ） (2023-12-29T16:43:51Z)
HOPPER: Interpretative Fuzzing for Libraries [6.36596812288503]
HOPPERはドメイン知識を必要とせずにライブラリをファズできる。ライブラリファジィングの問題をインタプリタファジィングの問題に変換する。
論文参考訳（メタデータ） (2023-09-07T06:11:18Z)
What Happens When We Fuzz? Investigating OSS-Fuzz Bug History [0.9772968596463595]
我々は2022年3月12日までにOSS-Fuzzが公表した44,102件の問題を分析した。コードを含むバグの発生時期を推定するために,バグ貢献のコミットを特定し,検出から修正までのタイムラインを測定した。
論文参考訳（メタデータ） (2023-05-19T05:15:36Z)
Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文参考訳（メタデータ） (2022-08-04T05:32:20Z)
DeFuzz: Deep Learning Guided Directed Fuzzing [41.61500799890691]
本稿では,DeFuzzというソフトウェア脆弱性検出のための,ディープラーニング(DL)誘導指向ファズリングを提案する。 DeFuzzには2つの主要なスキームが含まれている。 1) 潜在的に脆弱な機能と位置(脆弱性のあるアドレス)を特定するために、トレーニング済みのDL予測モデルを使用する。正確には、Bidirectional-LSTM (BiLSTM) を用いて注意語を識別し、その脆弱性はこれらの注意語に関連付けられている。
論文参考訳（メタデータ） (2020-10-23T03:44:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。