論文の概要: Measuring Security Without Fooling Ourselves: Why Benchmarking Agents Is Hard
- arxiv url: http://arxiv.org/abs/2605.22568v1
- Date: Thu, 21 May 2026 14:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.308077
- Title: Measuring Security Without Fooling Ourselves: Why Benchmarking Agents Is Hard
- Title(参考訳): ベンチマークエージェントを使わずにセキュリティを計測する - なぜベンチマークエージェントは難しいのか
- Authors: Sahar Abdelnabi, Chris Hicks, Konrad Rieck, Ahmad-Reza Sadeghi,
- Abstract要約: セキュリティ評価を損なう3つの課題について説明する。
これには、ベンチマークの脆弱性、時間的安定性、実行時の不確実性などが含まれる。
次に、より堅牢で信頼性の高い評価フレームワークを構築するための実践的な方向性を概説する。
- 参考スコア(独自算出の注目度): 27.61954149503329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The benchmarks used to evaluate AI agents in security-critical roles suffer from crucial weaknesses. Building on recent empirical evidence, we characterize three core challenges that undermine security evaluations: benchmark vulnerabilities, temporal staleness, and runtime uncertainty. We then outline practical directions toward building more robust and trustworthy evaluation frameworks.
- Abstract(参考訳): セキュリティクリティカルな役割におけるAIエージェントの評価に使用されたベンチマークは、重大な弱点に悩まされている。
最近の実証的な証拠に基づいて、ベンチマークの脆弱性、時間的安定性、実行時の不確実性といった、セキュリティ評価を損なう3つの中核的な課題を特徴付けます。
次に、より堅牢で信頼性の高い評価フレームワークを構築するための実践的な方向性を概説する。
関連論文リスト
- Towards a Science of AI Agent Reliability [9.570634569436535]
AIエージェントは、重要なタスクを実行するためにますますデプロイされる。
標準ベンチマークにおける精度の上昇は急速な進歩を示唆する一方で、多くのエージェントが実際に失敗し続けている。
エージェントの信頼性を4つの重要な次元(一貫性、堅牢性、予測可能性、安全性)に沿って分解する12のメトリクスを提案する。
論文 参考訳(メタデータ) (2026-02-18T18:05:44Z) - Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文 参考訳(メタデータ) (2025-10-06T18:09:02Z) - SafeEvalAgent: Toward Agentic and Self-Evolving Safety Evaluation of LLMs [37.82193156438782]
本稿では, エージェント安全評価の新しいパラダイムとして, 継続的かつ自己進化的なプロセスとしてのリフレーミング評価を提案する。
本稿では、構造化されていないポリシー文書を自律的に取り込み、包括的な安全ベンチマークを生成し、永続的に進化させる、新しいマルチエージェントフレームワークSafeEvalAgentを提案する。
本実験はSafeEvalAgentの有効性を実証し,評価が強まるにつれてモデルの安全性が一貫した低下を示す。
論文 参考訳(メタデータ) (2025-09-30T11:20:41Z) - Evaluating the Evaluators: Trust in Adversarial Robustness Tests [17.06660302788049]
AttackBenchは、新しい最適度基準に基づいて既存の攻撃実装をランク付けする評価ツールである。
このフレームワークは、一貫したテスト条件を実行し、継続的な更新を可能にする。
論文 参考訳(メタデータ) (2025-07-04T10:07:26Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - Attestable Audits: Verifiable AI Safety Benchmarks Using Trusted Execution Environments [7.462223660305825]
本稿では,Trusted Execution Environments内で動作するAttestable Auditsを提案する。
私たちの仕事は、モデルプロバイダと監査官がお互いを信頼していない場合でも、機密データを保護します。
論文 参考訳(メタデータ) (2025-06-30T10:29:42Z) - Aurora: Are Android Malware Classifiers Reliable and Stable under Distribution Shift? [51.12297424766236]
AURORAは、その信頼性と運用上のレジリエンスに基づいて、マルウェア分類器を評価するためのフレームワークである。
AURORAは、ポイント・イン・タイムのパフォーマンスを超えるように設計されたメトリクスのセットによって補完される。
さまざまなドリフトのデータセットにわたるSOTAフレームワークの脆弱性は、ホワイトボードへの復帰の必要性を示唆している。
論文 参考訳(メタデータ) (2025-05-28T20:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。