論文の概要: SAFuzz: Semantic-Guided Adaptive Fuzzing for LLM-Generated Code
- arxiv url: http://arxiv.org/abs/2602.11209v1
- Date: Wed, 11 Feb 2026 02:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.447613
- Title: SAFuzz: Semantic-Guided Adaptive Fuzzing for LLM-Generated Code
- Title(参考訳): SAFuzz: LLM生成コードのためのセマンティックガイド付きアダプティブファズ
- Authors: Ziyi Yang, Kalit Inani, Keshav Kabra, Vima Gupta, Anand Padmanabha Iyer,
- Abstract要約: SAFuzzは、アダプティブリソースの割り当てと動的早期停止を可能にするために、プロンプトベースの振る舞いの多様化、問題固有のオークルを用いたハーネス生成、LLMベースの予測器を統合する。
我々は、脆弱性識別精度を77.9%から85.7%に改善し、SOTA GreenFuzzに比べて1.71倍の時間コスト削減を実現した。
- 参考スコア(独自算出の注目度): 15.89862532277037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While AI-coding assistants accelerate software development, current testing frameworks struggle to keep pace with the resulting volume of AI-generated code. Traditional fuzzing techniques often allocate resources uniformly and lack semantic awareness of algorithmic vulnerability patterns, leading to inefficient resource usage and missed vulnerabilities. To address these limitations, we present a hybrid testing framework that leverages LLM-guided adaptive fuzzing to detect algorithmic vulnerabilities efficiently. Our system SAFuzz integrates prompt-based behavioral diversification, harness generation with problem-specific oracles, and an LLM-based predictor to enable adaptive resource allocation and dynamic early stopping. Evaluating SAFuzz on CSES algorithmic problems, we improve vulnerability discrimination precision from 77.9% to 85.7% and achieve a 1.71x reduction in time cost compared to SOTA GreenFuzz while maintaining comparable recall. We further observe that combining our approach with existing unit test generation methods yields complementary gains, increasing the bug detection recall from 67.3% to 79.5%.
- Abstract(参考訳): AIコーディングアシスタントがソフトウェア開発を加速する一方で、現在のテストフレームワークは、結果として生成されたAI生成コード量に追従するのに苦労している。
従来のファジィング技術はリソースを均一に割り当てることが多く、アルゴリズムの脆弱性パターンに対する意味的な認識が欠如しているため、非効率なリソース使用と脆弱性の欠如につながっている。
これらの制約に対処するために,LLM誘導適応ファジィを利用してアルゴリズムの脆弱性を効率的に検出するハイブリッドテストフレームワークを提案する。
当社のシステムSAFuzzは,アダプティブリソース割り当てと動的早期停止を実現するために,プロンプトベースの行動多様化,問題固有オーラクルの生成,LLMベースの予測器を統合した。
CSESアルゴリズム上のSAFuzzを評価することで、脆弱性識別精度を77.9%から85.7%に向上し、同じリコールを維持しながら、SOTA GreenFuzzに比べて1.71倍の時間コスト削減を実現している。
さらに,既存の単体テスト生成手法と組み合わせることで,バグ検出リコールが67.3%から79.5%に増加し,相補的なゲインが得られることも確認した。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - VulSolver: Vulnerability Detection via LLM-Driven Constraint Solving [23.259666449166456]
従来の脆弱性検出方法は、事前定義されたルールマッチングに大きく依存する。
大規模言語モデル(LLM)を用いた制約解決手法を提案する。
VULSOLVERをベンチマークで評価し、精度97.85%、スコア97.97%、リコール100%を達成した。
論文 参考訳(メタデータ) (2025-08-31T14:49:48Z) - Enhancing Software Vulnerability Detection Through Adaptive Test Input Generation Using Genetic Algorithm [2.02449352795006]
本研究では, 遺伝的アルゴリズムを用いた入力生成手法を提案する。
遺伝的演算子と適応学習を統合し、ソフトウェアの脆弱性検出を強化する。
結果は、より深くより複雑な脆弱性を検出する方法の能力を強調している。
論文 参考訳(メタデータ) (2025-08-08T01:03:22Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。
LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。
これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文 参考訳(メタデータ) (2025-07-16T09:46:58Z) - A Mixture of Linear Corrections Generates Secure Code [20.94236753015922]
大規模言語モデル(LLM)は、洗練されたコード生成タスクに熟練しているが、コードの脆弱性を確実に検出または回避するには効果がない。
現在のLLMは、脆弱なコードとセキュアなコードとを区別する正確な内部表現を符号化している。
本研究では,モデルのトークン生成確率を補正によって微調整する推論時ステアリング手法を開発した。
論文 参考訳(メタデータ) (2025-07-13T06:27:33Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Breaking the Loop: Detecting and Mitigating Denial-of-Service Vulnerabilities in Large Language Models [4.046135652393372]
LLM(Large Language Models)は、教育、ソフトウェア開発、医療、エンターテイメント、法律サービスなど、幅広い分野のアプリケーションに不可欠な、高度なテキスト理解と生成を持つ。
モデルが同じあるいは同じ出力を繰り返し生成するリカレントジェネレーションは、レイテンシの増加と潜在的なDoS(DoS)脆弱性を引き起こす。
本稿では,LLama-3 や GPT-4o などの著名な LLM における再帰発生シナリオを効率よく同定するブラックボックス進化アルゴリズムである RecurrentGenerator を提案する。
論文 参考訳(メタデータ) (2025-03-01T09:32:17Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - StagedVulBERT: Multi-Granular Vulnerability Detection with a Novel Pre-trained Code Model [13.67394549308693]
本研究では,新たな脆弱性検出フレームワークStagedVulBERTを紹介する。
CodeBERT-HLSコンポーネントはトークンレベルとステートメントレベルの両方でセマンティクスを同時にキャプチャするために設計されている。
粗粒度の脆弱性検出では、StagedVulBERTは92.26%のF1スコアを獲得し、最高のパフォーマンスメソッドよりも6.58%改善している。
論文 参考訳(メタデータ) (2024-10-08T07:46:35Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。