論文の概要: Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety
- arxiv url: http://arxiv.org/abs/2605.22643v2
- Date: Fri, 22 May 2026 14:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.786897
- Title: Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety
- Title(参考訳): フロッグの沸騰: エージェント安全のためのマルチTurnベンチマーク
- Authors: Piercosma Bisconti, Matteo Prandi, Federico Pierucci, Federico Sartore, Enrico Panai, Laura Caroli, Yue Zhu, Adam Leon Smith, Luca Nannini, Marcello Galisai, Susanna Cifani, Francesco Giarrusso, Marcantonio Bracale Syrnikov, Daniele Nardi,
- Abstract要約: ツール使用のAIモデルがインクリメンタルアタックの影響を受けやすいかどうかを評価するベンチマークであるBoiling the Frogを紹介した。
シナリオは3段階の運用リスク分類によって編成される。
9モデルパネル全体では、総攻撃成功率(ASR)は44.4%である。
- 参考スコア(独自算出の注目度): 2.661610409070365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background. Traditional safety benchmarks for language models evaluate generated text: whether a model outputs toxic language, reproduces bias, or follows harmful instructions. When models are deployed as agents, the safety-relevant object shifts from what the system says to what it does within an environment, and evaluating model responses under prompting is no longer sufficient to address the safety challenges posed by artificial intelligence. Recent developments have seen the rise of benchmarks that evaluate large language models as agents. We contribute to this strand of research. Approach. We introduce Boiling the Frog, a benchmark that evaluates whether tool-using AI models deployed in corporate and office settings are susceptible to incremental attacks. Each scenario begins with benign workspace edits and later introduces a risk-bearing request. The benchmark focuses on stateful multi-turn evaluation: chains expose a persistent workspace, place the risk-bearing payload at controlled positions in the turn sequence, and score whether the resulting artifact state becomes unsafe. Scenarios are organized through a three-level operational risk taxonomy grounded in the Boiling the Frog risks, the AI Act Annex I and Annex III high-risk contexts, and EU AI Act's Code of Practice on General-Purpose AI (GPAI). Results. Across a nine-model panel, aggregate strict attack success rate (ASR) is 44.4%. Model-level ASR ranges from 20.5% for Claude Haiku 4.5 to 92.9% for Gemini 3.1 Flash Lite, with Seed 2.0 Lite also above 80%. Average chain category-level ASR reaches 93.3% for Code of Practice loss-of-control scenarios.
- Abstract(参考訳): 背景。
言語モデルの伝統的な安全ベンチマークは、生成されたテキストを評価する:モデルが有害な言語を出力するか、バイアスを再現するか、有害な指示に従うか。
モデルがエージェントとしてデプロイされると、安全関連オブジェクトはシステムが言うものから環境内で行うものへとシフトし、プロンプトによるモデル応答の評価は、人工知能がもたらす安全上の課題に対処するのに十分ではない。
近年,大規模言語モデルをエージェントとして評価するベンチマークが増加している。
私たちはこの研究に貢献する。
アプローチ。
企業やオフィスにデプロイされたツール使用AIモデルがインクリメンタルアタックの影響を受けやすいかどうかを評価するベンチマークであるBoiling the Frogを紹介した。
それぞれのシナリオは、良心的なワークスペースの編集から始まり、後にリスクを負う要求を導入する。
チェーンは永続的なワークスペースを公開し、リスクを負うペイロードをターンシーケンス内の制御された位置に配置し、結果のアーティファクト状態が安全でないかどうかを評価する。
シナリオは、フロッグリスクのボイリング、AI法Annex IとAnnex IIIのハイリスクコンテキスト、EU AI Actの一般目的AI(GPAI)に関するプラクティス(Code of Practice on General-Purpose AI)の3段階の運用リスク分類によって編成される。
結果。
9モデルパネル全体では、総攻撃成功率(ASR)は44.4%である。
モデルレベルの ASR は Claude Haiku 4.5 の 20.5% から Gemini 3.1 Flash Lite の92.9% まで、Seed 2.0 Lite も80%以上である。
平均チェーンのカテゴリレベルのASRは、コード・オブ・プラクティス・オブ・コントロールのシナリオで93.3%に達する。
関連論文リスト
- Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework [63.74295981594549]
大規模言語モデル(LLM)は、自身の目的を達成する行動に関与している。
これには、詐欺(故意に誤解を招くユーザや評価者)、評価ゲーム(安全テスト中のパフォーマンスを戦略的に操作する)、報酬ハッキングなどが含まれる。
自動行動リスク評価のための分類駆動型エージェントフレームワークであるESRRSimを紹介する。
論文 参考訳(メタデータ) (2026-04-23T23:44:01Z) - SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models [46.968844120076916]
実装エージェントベンチマークALFRED上に構築されたSafetyALFREDを紹介し,実際のキッチンハザードの6つのカテゴリを拡張した。
我々は,リスク認識だけでなく,具体的計画によるアクティブなリスク軽減についても,11種類の最先端モデルを評価した。
論文 参考訳(メタデータ) (2026-04-21T16:27:20Z) - The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents [29.98056047452529]
コンピュータ利用エージェント(CUA)は、現実の環境で複雑なタスクを自律的に完了させることができるが、誤解があれば自動化することもできる。
意図しない攻撃条件下でCUAを評価するベンチマークOSBLINDを紹介する。
ほとんどのCUAは90%の攻撃成功率(ASR)を超え、安全に配慮したClaude 4.5 Sonnetも72.7%に達している。
論文 参考訳(メタデータ) (2026-04-12T10:52:42Z) - ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis [96.92417622318267]
ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。
リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。
1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
論文 参考訳(メタデータ) (2026-04-02T13:26:20Z) - AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation [22.833977971686966]
本稿では、フロンティアAIリスク評価のための自動化フレームワークであるAutoControl Arenaを紹介する。
私たちは柔軟性を維持しながら幻覚を緩和します。
この原則は3エージェントフレームワークを通じてインスタンス化され、既存のシミュレータよりも98%以上のエンドツーエンドの成功と60%の人間の好みを達成する。
論文 参考訳(メタデータ) (2026-03-08T02:49:45Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - PropensityBench: Evaluating Latent Safety Risks in Large Language Models via an Agentic Approach [49.14349403242654]
我々は、リスクを伴う行動に関わるモデルの確率を評価する新しいベンチマークフレームワークであるtextbfPropensityBench$を提示する。
私たちのフレームワークには,サイバーセキュリティ,自己増殖,バイオセキュリティ,化学セキュリティという,リスクの高い4つのドメインにまたがる6,648のツールを備えた,5,874のシナリオが含まれています。
オープンソースとプロプライエタリなフロンティアモデル全体で、私たちは9つの不確実性の兆候を発見しました。
論文 参考訳(メタデータ) (2025-11-24T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。