論文の概要: Who Tests the Testers? Systematic Enumeration and Coverage Audit of LLM Agent Tool Call Safety
- arxiv url: http://arxiv.org/abs/2603.18245v1
- Date: Wed, 18 Mar 2026 20:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.833259
- Title: Who Tests the Testers? Systematic Enumeration and Coverage Audit of LLM Agent Tool Call Safety
- Title(参考訳): 誰がテスターを試すか : LLMエージェントコールセーフの体系的列挙とカバーオーディット
- Authors: Xuan Chen, Lu Yan, Ruqi Zhang, Xiangyu Zhang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、テキスト生成のみではなく、ツールコールに安全を集中させる外部ツールを通じて、ますます機能するようになっている。
最近のベンチマークでは、さまざまな環境やリスクカテゴリにまたがるエージェントを評価しているが、根本的な疑問は解決されていない。
まず、有効なツールコールと多様なユーザシナリオを列挙して、テストケースを体系的に生成する列挙子。次に、非セマンティックで定量的な尺度であるルール耐性を導入する。
- 参考スコア(独自算出の注目度): 32.40159096400358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents increasingly act through external tools, making their safety contingent on tool-call workflows rather than text generation alone. While recent benchmarks evaluate agents across diverse environments and risk categories, a fundamental question remains unanswered: how complete are existing test suites, and what unsafe interaction patterns persist even after an agent passes the benchmark? We propose SafeAudit, a meta-audit framework that addresses this gap through two contributions. First, an LLM-based enumerator that systematically generates test cases by enumerating valid tool-call workflows and diverse user scenarios. Second, we introduce rule-resistance, a non-semantic, quantitative metric that distills compact safety rules from existing benchmarks and identifies unsafe interaction patterns that remain uncovered under those rules. Across 3 benchmarks and 12 environments, SafeAudit uncovers more than 20% residual unsafe behaviors that existing benchmarks fail to expose, with coverage growing monotonically as the testing budget increases. Our results highlight significant completeness gaps in current safety evaluation and motivate meta-auditing as a necessary complement to benchmark-based agent safety testing.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、テキスト生成のみではなく、ツールコールワークフローに安全を集中させる外部ツールを通じて、ますます機能するようになっている。
最近のベンチマークでは、さまざまな環境やリスクカテゴリにまたがるエージェントを評価しているが、根本的な疑問は解決されていない。
2つのコントリビューションを通じてこのギャップに対処するメタ監査フレームワークであるSafeAuditを提案する。
まず、LLMベースの列挙子で、有効なツールコールワークフローと多様なユーザシナリオを列挙することで、テストケースを体系的に生成します。
第2に、既存のベンチマークからコンパクトな安全ルールを蒸留し、それらのルールの下で発見されていない安全でない相互作用パターンを識別する、非セマンティックで定量的な尺度であるルール耐性を導入する。
3つのベンチマークと12の環境にまたがって、SafeAuditは、既存のベンチマークが公開しない20%以上の残余の安全でない動作を明らかにし、テスト予算が増加するにつれてカバレッジは単調に増加します。
本研究は, ベンチマークベースのエージェント安全性試験の補完として, 現在の安全性評価において重要な完全性ギャップとメタ監査の動機付けを強調した。
関連論文リスト
- RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents [0.9821874476902969]
LLMエージェントは、単一のスカラーテストメトリクスで成功を判断するエンドツーエンドのMLエンジニアリングタスクをますます実行します。
エージェントは、モデルを改善するのではなく、評価パイプラインを妥協することで、報告されたスコアを増やすことができる。
ワークスペースベースのベンチマークであるRewardHackingAgentsを導入する。
論文 参考訳(メタデータ) (2026-03-11T22:06:44Z) - Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents [68.20752678837377]
本稿では,単一ターン有害なタスクを多ターン攻撃シーケンスに変換する基本的分類法を提案する。
この分類法を用いて,マルチターンツール使用エージェントの安全性を評価する最初のベンチマークであるMT-AgentRiskを構築した。
トレーニング不要で、ツールに依存しない、自己探索型防御ツールであるToolShieldを提案する。
論文 参考訳(メタデータ) (2026-02-13T18:38:18Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - DUALGUAGE: Automated Joint Security-Functionality Benchmarking for Secure Code Generation [18.208257676875586]
大規模言語モデル(LLM)と自律型コーディングエージェントは、広範囲の非メタルドメインにまたがるソフトウェア生成にますます利用されている。
セキュアなコード生成のための既存のベンチマークと評価は、脆弱性の削減、正当性保存の無視、あるいは別々のデータセットのセキュリティと機能の評価のみを短時間で測定する。
GAUGEは,LLM生成コードのセキュリティと正しさを一斉に評価するために設計された,最初の完全自動ベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T22:26:14Z) - STAF: Leveraging LLMs for Automated Attack Tree-Based Security Test Generation [3.283937504286784]
本稿では,セキュリティテストケースの自動生成のための新しいアプローチであるSTAF(Security Test Automation Framework)を紹介する。
自動テストフレームワークとの統合とともに、賢明で実行可能な自動車セキュリティテストスイートを生成するために必要な要素とプロセスを示します。
論文 参考訳(メタデータ) (2025-09-24T14:46:42Z) - AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents [48.925168866726814]
AgentAuditorは、トレーニングなし、メモリ拡張推論フレームワークである。
ASSEBenchは、LLMベースの評価器が安全リスクとセキュリティ上の脅威の両方を見つけることができるかを確認するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-31T17:10:23Z) - ASTRAL: Automated Safety Testing of Large Language Models [6.1050306667733185]
大規模言語モデル(LLM)は、人間のような洗練されたコンテンツを理解し、生成する能力によって最近注目を集めている。
LLMの安全性をテストするためのテストケース(即ちプロンプト)の生成と実行を自動化するツールであるASTRALを提案する。
論文 参考訳(メタデータ) (2025-01-28T18:25:11Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - BELLS: A Framework Towards Future Proof Benchmarks for the Evaluation of LLM Safeguards [43.86118338226387]
LLMセーフガード評価ベンチマーク(BELLS)について紹介する。
BELLSは構造化されたテストのコレクションで、確立された障害テスト、新しい障害テスト、次世代アーキテクチャテストの3つのカテゴリに分けられる。
私たちは、データセットのインタラクティブな可視化とともに、MACHIAVELLI環境を使用して、最初の次世代アーキテクチャテストを実装し、共有します。
論文 参考訳(メタデータ) (2024-06-03T14:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。