論文の概要: Synthesizing Multi-Agent Harnesses for Vulnerability Discovery
- arxiv url: http://arxiv.org/abs/2604.20801v1
- Date: Wed, 22 Apr 2026 17:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.258994
- Title: Synthesizing Multi-Agent Harnesses for Vulnerability Discovery
- Title(参考訳): 脆弱性発見のためのマルチエージェント・ハーネスの合成
- Authors: Hanzhi Liu, Chaofan Shou, Xiaonan Liu, Hongbo Wen, Yanju Chen, Ryan Jingyang Fang, Yu Feng,
- Abstract要約: LLMエージェントは、人間の監査官や自動ファジッターが何十年も見逃していた、真のセキュリティ脆弱性を見つけ始めている。
実際には、作業は複数のエージェントに分割され、ハーネスによってワイヤリングされる。どの役割が存在するかを修正するプログラム、どのように情報を渡すか、どのツールを呼び出すか、リトライがどのように調整されるかである。
AgentFlowは、エージェントの役割、プロンプト、ツール、通信トポロジ、調整プロトコルを共同でカバーする型付きグラフDSLで、両方の制限に対処する。
- 参考スコア(独自算出の注目度): 8.518689779459974
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLM agents have begun to find real security vulnerabilities that human auditors and automated fuzzers missed for decades, in source-available targets where the analyst can build and instrument the code. In practice the work is split among several agents, wired together by a harness: the program that fixes which roles exist, how they pass information, which tools each may call, and how retries are coordinated. When the language model is held fixed, changing only the harness can still change success rates by several-fold on public agent benchmarks, yet most harnesses are written by hand; recent harness optimizers each search only a narrow slice of the design space and rely on coarse pass/fail feedback that gives no diagnostic signal about why a trial failed. AgentFlow addresses both limitations with a typed graph DSL whose search space jointly covers agent roles, prompts, tools, communication topology, and coordination protocol, paired with a feedback-driven outer loop that reads runtime signals from the target program itself to diagnose which part of the harness caused the failure and rewrite it accordingly. We evaluate AgentFlow on TerminalBench-2 with Claude Opus 4.6 and on Google Chrome with Kimi K2.5. AgentFlow reaches 84.3% on TerminalBench-2, the highest score in the public leaderboard snapshot we evaluate against, and discovers ten previously unknown zero-day vulnerabilities in Google Chrome, including two Critical sandbox-escape vulnerabilities (CVE-2026-5280 and CVE-2026-6297).
- Abstract(参考訳): LLMエージェントは、アナリストがコードを構築して実装できるソース可能なターゲットにおいて、人間の監査官や自動ファジィザが何十年にもわたって見逃していた、真のセキュリティ上の脆弱性を見つけ始めている。
実際には、作業は複数のエージェントに分割され、ハーネスによってワイヤリングされる。どの役割が存在するかを修正するプログラム、どのように情報を渡すか、どのツールを呼び出すか、リトライがどのように調整されるかである。
言語モデルが固定されている場合、ハーネスのみが公開エージェントベンチマークで数倍の成功率を変えることができるが、ほとんどのハーネスは手書きで書かれている。
AgentFlowは、エージェントロール、プロンプト、ツール、通信トポロジ、調整プロトコルを共同でカバーする型付きグラフDSLを使用して、両方の制限に対処する。
我々はClaude Opus 4.6 による TerminalBench-2 上の AgentFlow と Kimi K2.5 による Google Chrome の評価を行った。
AgentFlowは、私たちが評価した公開リーダボードスナップショットで最も高いスコアである TerminalBench-2 で84.3%に達し、CVE-2026-5280 と CVE-2026-6297 の2つのクリティカルサンドボックスエスケープ脆弱性を含む、Google Chromeの10の既知のゼロデイ脆弱性を発見した。
関連論文リスト
- TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications [0.0]
テスト駆動型AIエージェント定義(TDAD)は、エージェントプロンプトをコンパイルされたアーティファクトとして扱う方法論である。
SpecSuite-CoreのTDADは、ポリシーコンプライアンス、グラウンドド・アナリティクス、ランブックの遵守、決定論的強制にまたがる4つのエージェントのベンチマークである。
論文 参考訳(メタデータ) (2026-03-09T18:04:54Z) - Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - HarnessAgent: Scaling Automatic Fuzzing Harness Construction with Tool-Augmented LLM Pipelines [22.70950665226898]
HarnessAgentはツール拡張されたエージェントフレームワークで、何百ものOSS-Fuzzターゲットに対して完全に自動化され、スケーラブルなハーネス構築を実現する。
OSS-Fuzzプロジェクトと178のC++プロジェクトから243のターゲット関数に対してHarnessAgentを評価する。
論文 参考訳(メタデータ) (2025-12-03T03:55:09Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。
OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。
我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-17T17:59:31Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。