論文の概要: Agentic Fuzzing: Opportunities and Challenges
- arxiv url: http://arxiv.org/abs/2605.10074v1
- Date: Mon, 11 May 2026 06:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.583775
- Title: Agentic Fuzzing: Opportunities and Challenges
- Title(参考訳): エージェントファジィング - 機会と課題
- Authors: Junyoung Park, Insu Yun,
- Abstract要約: 本稿では,歴史的バグを原因とするバグフィリング手法であるエージェントファズリングを提案する。
Agentは、参照とトリガーパスやコード構造で完全に異なる変種を見つける。
私たちは約1ヶ月、V8 JavaScriptエンジン上でAFuzzを実行し、40のバグ(3つの重複を含む)を見つけ、合計35,000ドルの報奨金を受け取り、2つのCVEを割り当てました。
- 参考スコア(独自算出の注目度): 7.472861215589319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fuzzers and static analyzers find many bugs but struggle with logic bugs in mature codebases. Triggering such a bug often requires multi-step reasoning that produces no distinctive execution feedback, and variants can appear across implementations too different for a single pattern to match. Recent LLM-assisted approaches help, but they use LLMs as auxiliaries rather than as the reasoning engine. We propose agentic fuzzing, a bug-finding approach seeded by historical bugs in which deep agents perform the reasoning directly. Given a reference bug, the agent analyzes its root cause, hypothesizes new scenarios elsewhere in the codebase that may share that cause, and verifies each hypothesis by generating and running proof-of-concept code. This lets the agent find variants that differ completely in trigger path or code structure from the reference. We identify three practical challenges in implementing agentic fuzzing: harness engineering, redundant investigations across seeds with similar root causes, and scheduling seeds in a large corpus. We address these in AFuzz through a four-stage agent pipeline, scenario coverage that deduplicates previously explored scenarios, and a DPP-MAP scheduler that orders seeds by diversity. We ran AFuzz on the V8 JavaScript engine for about one month, finding 40 bugs (including three duplicates), receiving a total $35,000 bounty, and being assigned two CVEs. AFuzz also found 19 bugs (including one duplicate) in SpiderMonkey and JavaScriptCore using the seeds from V8. However, agentic fuzzing is in its early stages with several remaining open problems we discuss in the paper. Still, we think it points to a promising direction for finding logic bugs.
- Abstract(参考訳): ファズーと静的アナライザは多くのバグを見つけるが、成熟したコードベースではロジックのバグに悩まされる。
このようなバグをトリガーするには、特有の実行フィードバックを発生しない複数ステップの推論が必要になることも多い。
最近のLLM支援アプローチは役立つが、彼らは推理エンジンとしてではなく補助エンジンとしてLLMを使用している。
エージェントファジィング( agentic fuzzing, エージェントファジィング)は, エージェントが直接推論を行う, 歴史的バグが生み出したバグフィニング手法である。
参照バグが与えられた場合、エージェントはその根本原因を分析し、その原因を共有するコードベースのどこかで新しいシナリオを仮説化し、概念実証コードの生成と実行によって各仮説を検証する。
これにより、エージェントは参照からトリガーパスやコード構造で完全に異なる変種を見つけることができる。
エージェントファジィ実装における3つの実践的課題は, 工学的手法, 類似の根本原因をもつ種子の冗長な調査, 大規模コーパスでの種子のスケジューリングである。
我々は、AFuzzの4段階のエージェントパイプライン、以前に検討されたシナリオを重複させるシナリオカバレッジ、多様性によって種を注文するDPP-MAPスケジューラを通じて、これらに対処する。
私たちは約1ヶ月、V8 JavaScriptエンジン上でAFuzzを実行し、40のバグ(3つの重複を含む)を見つけ、合計35,000ドルの報奨金を受け取り、2つのCVEを割り当てました。
AFuzz氏はまた、V8の種を使用してSpiderMonkeyとJavaScriptCoreに19のバグ(1つの重複を含む)を発見した。
しかし, エージェントファジィリングは初期段階にあり, 未解決の問題もいくつか残っている。
それでも、ロジックのバグを見つけるための有望な方向性を指し示していると思います。
関連論文リスト
- ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - StaAgent: An Agentic Framework for Testing Static Analyzers [7.951459111292028]
StaAgentは、静的アナライザルールを体系的に評価するために、LLM(Large Language Models)の生成能力を利用するエージェントフレームワークである。
StaAgentは一貫性のない振る舞いを明らかにすることによって、ルール実装の欠陥を明らかにするのに役立ちます。
そこで我々は,StaAgentを5つの広く使用されている静的アナライザにまたがって5つの最先端LCMを用いて評価した。
論文 参考訳(メタデータ) (2025-07-20T13:41:02Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Challenging Bug Prediction and Repair Models with Synthetic Bugs [7.285779914390472]
BugFarmは任意のコードを複数の複雑なバグに変換する。
BUGFARMが生成した1.9万以上の変異株から435k以上のバグを総合的に評価する。
論文 参考訳(メタデータ) (2023-10-03T20:01:51Z) - Large Language Models of Code Fail at Completing Code with Potential
Bugs [30.80172644795715]
リアルタイムコード提案に触発されたバグコード補完問題について検討する。
潜在的なバグの存在は、高性能なCode-LLMの生成性能を著しく低下させる。
論文 参考訳(メタデータ) (2023-06-06T06:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。