論文の概要: Automatic, Expressive, and Scalable Fuzzing with Stitching
- arxiv url: http://arxiv.org/abs/2602.18689v1
- Date: Sat, 21 Feb 2026 01:48:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.237561
- Title: Automatic, Expressive, and Scalable Fuzzing with Stitching
- Title(参考訳): スティッチ付き自動, 表現型, スケーラブルなファジング
- Authors: Harrison Green, Fraser Brown, Claire Le Goues,
- Abstract要約: ファジィアが実行時に動的に組み立てる部分でAPI使用制限を符号化する手法であるステッチリングを提案する。
我々はSTITCHで縫合を実装し、LCMを使用してファジィングのプロジェクトを自動的に構成し、仕様を合成し、トリアージクラッシュを発生させ、仕様自体を修復する。
33のベンチマークで4つの最先端ツールに対してSTITCHを評価し、21のコードカバレッジを達成し、他のツールの組み合わせで10よりも30の真陽性バグを発見しました。
- 参考スコア(独自算出の注目度): 12.105597820462634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fuzzing is a powerful technique for finding bugs in software libraries, but scaling it remains difficult. Automated harness generation commits to fixed API sequences at synthesis time, limiting the behaviors each harness can test. Approaches that instead explore new sequences dynamically lack the expressiveness to model real-world usage constraints leading to false positives from straightforward API misuse. We propose stitching, a technique that encodes API usage constraints in pieces that a fuzzer dynamically assembles at runtime. A static type system governs how objects flow between blocks, while a dynamically-checked extrinsic typestate tracks arbitrary metadata across blocks, enabling specifications to express rich semantic constraints such as object state dependencies and cross-function preconditions. This allows a single specification to describe an open-ended space of valid API interactions that the fuzzer explores guided by coverage feedback. We implement stitching in STITCH, using LLMs to automatically configure projects for fuzzing, synthesize a specification, triage crashes, and repair the specification itself. We evaluated STITCH against four state-of-the-art tools on 33 benchmarks, where it achieved the highest code coverage on 21 and found 30 true-positive bugs compared to 10 by all other tools combined, with substantially higher precision (70% vs. 12% for the next-best LLM-based tool). Deployed automatically on 1365 widely used open-source projects, STITCH discovered 131 new bugs across 102 projects, 73 of which have already been patched.
- Abstract(参考訳): ファジィングはソフトウェアライブラリのバグを見つけるための強力なテクニックですが、スケーリングは難しいままです。
自動ハーネス生成は、合成時に固定されたAPIシーケンスにコミットし、各ハーネスがテストできる振る舞いを制限する。
新しいシーケンスを動的に探索するアプローチは、実世界の使用制限をモデル化する表現力に欠けており、単純なAPI誤用による偽陽性につながる。
ファジィアが実行時に動的に組み立てる部分でAPI使用制限を符号化する手法であるステッチリングを提案する。
静的型システムはブロック間のオブジェクトのフローを制御し、動的にチェックされた外部の型ステートはブロック間で任意のメタデータを追跡する。
これにより、単一の仕様で、ファザーがカバレッジフィードバックによってガイドした、有効なAPIインタラクションのオープンエンドスペースを記述することができる。
我々はSTITCHで縫合を実装し、LCMを使用してファジィングのプロジェクトを自動的に構成し、仕様を合成し、トリアージクラッシュを発生させ、仕様自体を修復する。
33のベンチマークにおいて、STITCHを最先端の4つのツールと比較し、21のコードカバレッジを最高に達成し、他のツールと組み合わせて10の真陽性バグを30個見つけました。
広く使用されている1365のオープンソースプロジェクトに自動的にデプロイされたSTITCHは、102のプロジェクトに対して131の新たなバグを発見した。
関連論文リスト
- AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - May the Feedback Be with You! Unlocking the Power of Feedback-Driven Deep Learning Framework Fuzzing via LLMs [20.03968975178177]
ファズテスト(ファズテスト、fuzzing)は、ディープラーニング(DL)フレームワークのバグを見つけるための、シンプルで効果的な方法である。
本稿では,LLM(Large Language Model)とLLM(Generation LLM)という2つの大言語モデル(LLM)からなるフィードバック情報を効果的に活用するFUELを提案する。
FUELはPyTorchのラインコードカバレッジを改善し、最先端のベースラインよりも9.15%、14.70%向上できることを示す。
論文 参考訳(メタデータ) (2025-06-21T08:51:53Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。
従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。
DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文 参考訳(メタデータ) (2025-01-08T07:07:22Z) - Subgraph-Oriented Testing for Deep Learning Libraries [9.78188667672054]
我々は,異なるハードウェアプラットフォーム上でディープラーニング(DL)ライブラリをテストするためのSORT(Subgraph-Oriented Realistic Testing)を提案する。
SORTは、テスト対象として、しばしばモデルグラフのサブグラフとして表現される、人気のあるAPIインタラクションパターンを採用している。
SORTは100%有効な入力生成率を実現し、既存のメソッドよりも精度の高いバグを検出し、シングルAPIテストで欠落したインタラクション関連のバグを明らかにする。
論文 参考訳(メタデータ) (2024-12-09T12:10:48Z) - FuzzWiz -- Fuzzing Framework for Efficient Hardware Coverage [2.1626093085892144]
FuzzWizという自動ハードウェアファジリングフレームワークを作成しました。
RTL設計モジュールのパース、C/C++モデルへの変換、アサーション、リンク、ファジングによるジェネリックテストベンチの作成を含む。
ベンチマークの結果,従来のシミュレーション回帰手法の10倍の速度でカバー範囲の約90%を達成できた。
論文 参考訳(メタデータ) (2024-10-23T10:06:08Z) - AutoBencher: Towards Declarative Benchmark Construction [74.54640925146289]
AutoBencherを使って、数学、多言語性、知識、安全性のためのデータセットを作成しています。
AutoBencherのスケーラビリティにより、詳細なカテゴリ知識をテストでき、既存のベンチマークよりも22%のモデルエラー(難易度)を誘発するデータセットを作成することができる。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - LineBreaker: Finding Token-Inconsistency Bugs with Large Language Models [37.995370535587575]
Token-Inconsistency bugs (TIB) は、構文的に有効だが正しくないコードトークンの誤用を伴う。
静的解析や動的テストのような従来の検出手法は、その汎用性と文脈に依存した性質のため、しばしばTIBと競合する。
我々は,新しいTIB検出システムであるnameを導入する。
論文 参考訳(メタデータ) (2024-05-02T18:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。