Fugu-MT 論文翻訳(概要): HarnessAgent: Scaling Automatic Fuzzing Harness Construction with Tool-Augmented LLM Pipelines

論文の概要: HarnessAgent: Scaling Automatic Fuzzing Harness Construction with Tool-Augmented LLM Pipelines

arxiv url: http://arxiv.org/abs/2512.03420v1
Date: Wed, 03 Dec 2025 03:55:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-04 20:02:55.110077
Title: HarnessAgent: Scaling Automatic Fuzzing Harness Construction with Tool-Augmented LLM Pipelines
Title（参考訳）: HarnessAgent: ツール強化LLMパイプラインによる自動ファジリングハーネス構築のスケールアップ
Authors: Kang Yang, Yunhang Zhang, Zichuan Li, GuanHong Tao, Jun Xu, XiaoJing Liao,
Abstract要約: HarnessAgentはツール拡張されたエージェントフレームワークで、何百ものOSS-Fuzzターゲットに対して完全に自動化され、スケーラブルなハーネス構築を実現する。 OSS-Fuzzプロジェクトと178のC++プロジェクトから243のターゲット関数に対してHarnessAgentを評価する。
参考スコア（独自算出の注目度）: 22.70950665226898
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model (LLM)-based techniques have achieved notable progress in generating harnesses for program fuzzing. However, applying them to arbitrary functions (especially internal functions) \textit{at scale} remains challenging due to the requirement of sophisticated contextual information, such as specification, dependencies, and usage examples. State-of-the-art methods heavily rely on static or incomplete context provisioning, causing failure of generating functional harnesses. Furthermore, LLMs tend to exploit harness validation metrics, producing plausible yet logically useless code. % Therefore, harness generation across large and diverse projects continues to face challenges in reliable compilation, robust code retrieval, and comprehensive validation. To address these challenges, we present HarnessAgent, a tool-augmented agentic framework that achieves fully automated, scalable harness construction over hundreds of OSS-Fuzz targets. HarnessAgent introduces three key innovations: 1) a rule-based strategy to identify and minimize various compilation errors; 2) a hybrid tool pool for precise and robust symbol source code retrieval; and 3) an enhanced harness validation pipeline that detects fake definitions. We evaluate HarnessAgent on 243 target functions from OSS-Fuzz projects (65 C projects and 178 C++ projects). It improves the three-shot success rate by approximately 20\% compared to state-of-the-art techniques, reaching 87\% for C and 81\% for C++. Our one-hour fuzzing results show that more than 75\% of the harnesses generated by HarnessAgent increase the target function coverage, surpassing the baselines by over 10\%. In addition, the hybrid tool-pool system of HarnessAgent achieves a response rate of over 90\% for source code retrieval, outperforming Fuzz Introspector by more than 30\%.
Abstract（参考訳）: 大規模言語モデル(LLM)に基づく手法は,プログラムファジィのためのハーネスの生成において顕著な進歩を遂げている。しかし、それらを任意の関数(特に内部関数)に適用することは、仕様、依存関係、使用例といった洗練されたコンテキスト情報を必要とするため、依然として困難である。 State-of-the-artメソッドは静的または不完全なコンテキストプロビジョニングに大きく依存しており、機能ハーネスの生成に失敗する。さらに、LCMはバリデーションメトリクスを活用する傾向があり、妥当だが論理的に役に立たないコードを生成する。ですから,大規模かつ多様なプロジェクトに対して,信頼性の高いコンパイルや堅牢なコード検索,包括的な検証といった課題に直面し続けているのです。これらの課題に対処するために、ツール強化されたエージェントフレームワークであるHarnessAgentを紹介します。 HarnessAgent氏は3つの重要なイノベーションを紹介した。 1) 様々なコンパイルエラーを特定し,最小化する規則に基づく戦略 2) 高精度かつ堅牢なシンボルソースコード検索のためのハイブリッドツールプール,及び 3) 偽の定義を検出する強化されたハーネス検証パイプライン。 OSS-Fuzzプロジェクト(65のCプロジェクトと178のC++プロジェクト)から243のターゲット関数でHarnessAgentを評価する。最先端技術と比較して3ショットの成功率を約20倍改善し、Cでは87倍、C++では81倍に達した。その結果,HarnessAgentが生成するハーネスの75%以上は目標関数のカバレッジを増大させ,ベースラインを10倍以上越えていることがわかった。さらに、HarnessAgentのハイブリッドツールプールシステムは、ソースコード検索のレスポンス率を90%以上達成し、ファズイントロスペクタを30倍以上上回っている。

関連論文リスト

TestExplora: Benchmarking LLMs for Proactive Bug Discovery via Repository-Level Test Generation [19.43198506241428]
提案するTestExploraは,大規模言語モデルを積極的なテスタとして評価するためのベンチマークである。 TestExploraには482リポジトリから2,389のタスクが含まれており、すべての欠陥関連信号を隠している。現状のモデルでは、F2P(Fail-to-Pass)の最大率は16.06%である。
論文参考訳（メタデータ） (2026-02-11T03:22:51Z)
SWE-Universe: Scale Real-World Verifiable Environments to Millions [84.63665266236963]
SWE-Universeは、GitHubのプルリクエスト(PR)から検証可能な環境を自動的に構築するフレームワークである。本稿では, 自動建築の課題を克服するために, 効率的なカスタムトレーニングモデルを用いた建築エージェントを提案する。大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
論文参考訳（メタデータ） (2026-02-02T17:20:30Z)
Improving LLM-Assisted Secure Code Generation through Retrieval-Augmented-Generation and Multi-Tool Feedback [1.1017250479834206]
大きな言語モデル(LLM)はコードを生成することができるが、セキュリティ上の脆弱性、論理的不整合、コンパイルエラーをしばしば導入する。本稿では,1つのコード生成LLMが反復的に出力を洗練する検索拡張型マルチツール修復ワークフローを提案する。
論文参考訳（メタデータ） (2026-01-01T23:34:00Z)
AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent [80.83250816918861]
o3やDeepSeek-R1のようなLarge Reasoning Models (LRM)は、長いチェーン・オブ・シークレットを持つ自然言語推論において顕著な進歩を遂げている。しかし、計算的に非効率であり、複雑な数学的操作を必要とする問題を解く際には精度に苦しむ。本稿では,言語モデルの推論能力とコードインタプリタの計算精度をシームレスに統合するエージェントフレームワークであるAgentMathを紹介する。
論文参考訳（メタデータ） (2025-12-23T19:57:49Z)
Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。 AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文参考訳（メタデータ） (2025-09-29T18:20:27Z)
PALADIN: Self-Correcting Language Model Agents to Cure Tool-Failure Cases [2.3181214107210235]
PALADINは、系統的な障害注入によって構築された5万以上のリカバリアノテーション付き軌道を走行する。トレーニングでは、LoRAベースの微調整を使用して、回復能力を注入しながらベース能力を維持する。このアプローチは、トレーニング分布を超えた新しい失敗に一般化する。
論文参考訳（メタデータ） (2025-09-25T10:37:30Z)
MalCodeAI: Autonomous Vulnerability Detection and Remediation via Language Agnostic Code Reasoning [0.0]
MalCodeAIは、自律的なコードセキュリティ分析と修復のための言語に依存しないパイプラインである。コード分解と意味推論をQwen2.5-Coder-3B-Instructモデルで組み合わせる。 MalCodeAIは、レッドハットスタイルのエクスプロイトトレース、CVSSベースのリスクスコアリング、ゼロショットの一般化をサポートし、複雑なゼロデイ脆弱性を検出する。
論文参考訳（メタデータ） (2025-07-15T01:25:04Z)
Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
SABER: Model-agnostic Backdoor Attack on Chain-of-Thought in Neural Code Generation [15.274903870635095]
コード言語モデル(CLM)の信頼性をさらに高めるために、Chain-of-Thought (CoT)推論を提案する。 CoTモデルは、CoT推論を言語モデルに効果的に統合するように設計されており、コード生成において顕著な改善が達成されている。本研究では,コード生成タスクにおけるバックドアインジェクションに対するCoTモデルの脆弱性について検討する。
論文参考訳（メタデータ） (2024-12-08T06:36:00Z)
REDO: Execution-Free Runtime Error Detection for COding Agents [3.9903610503301072]
Execution-free Error Detection for Coding Agents (REDO)は、実行時のエラーと静的解析ツールを統合する方法である。我々はREDOが11.0%の精度と9.1%の重み付きF1スコアを達成し、最先端の手法よりも優れていることを示した。
論文参考訳（メタデータ） (2024-10-10T18:06:29Z)
A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。 1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文参考訳（メタデータ） (2024-04-26T04:55:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。