論文の概要: Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents
- arxiv url: http://arxiv.org/abs/2602.13379v1
- Date: Fri, 13 Feb 2026 18:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.010386
- Title: Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents
- Title(参考訳): ツール・ユース・エージェントにおける安全リスクのベンチマークと予防
- Authors: Xu Li, Simon Yu, Minzhou Pan, Yiyou Sun, Bo Li, Dawn Song, Xue Lin, Weiyan Shi,
- Abstract要約: 本稿では,単一ターン有害なタスクを多ターン攻撃シーケンスに変換する基本的分類法を提案する。
この分類法を用いて,マルチターンツール使用エージェントの安全性を評価する最初のベンチマークであるMT-AgentRiskを構築した。
トレーニング不要で、ツールに依存しない、自己探索型防御ツールであるToolShieldを提案する。
- 参考スコア(独自算出の注目度): 68.20752678837377
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLM-based agents are becoming increasingly capable, yet their safety lags behind. This creates a gap between what agents can do and should do. This gap widens as agents engage in multi-turn interactions and employ diverse tools, introducing new risks overlooked by existing benchmarks. To systematically scale safety testing into multi-turn, tool-realistic settings, we propose a principled taxonomy that transforms single-turn harmful tasks into multi-turn attack sequences. Using this taxonomy, we construct MT-AgentRisk (Multi-Turn Agent Risk Benchmark), the first benchmark to evaluate multi-turn tool-using agent safety. Our experiments reveal substantial safety degradation: the Attack Success Rate (ASR) increases by 16% on average across open and closed models in multi-turn settings. To close this gap, we propose ToolShield, a training-free, tool-agnostic, self-exploration defense: when encountering a new tool, the agent autonomously generates test cases, executes them to observe downstream effects, and distills safety experiences for deployment. Experiments show that ToolShield effectively reduces ASR by 30% on average in multi-turn interactions. Our code is available at https://github.com/CHATS-lab/ToolShield.
- Abstract(参考訳): LLMベースのエージェントはますます有能になりつつありますが、その安全性は遅れています。
これにより、エージェントができることとすべきことの間にギャップが生じます。
このギャップは、エージェントがマルチターンインタラクションに従事し、さまざまなツールを使用し、既存のベンチマークで見落とされた新たなリスクを導入するにつれて拡大する。
安全試験をマルチターン・ツール・リアリスティックな設定に体系的にスケールするために、単一ターン有害なタスクをマルチターン攻撃シーケンスに変換する原則的な分類法を提案する。
この分類法を用いてMT-AgentRisk(Multi-Turn Agent Risk Benchmark)を構築する。
攻撃成功率 (ASR) は, オープンモデルおよびクローズドモデルにおいて, マルチターン設定で平均16%上昇する。
新たなツールに遭遇したエージェントは、テストケースを自律的に生成し、ダウンストリーム効果を観察するためにそれらを実行し、デプロイのための安全エクスペリエンスを蒸留する。
実験により,ToolShieldはマルチターンインタラクションにおいて,平均30%のASRを効果的に減少させることが示された。
私たちのコードはhttps://github.com/CHATS-lab/ToolShield.comで利用可能です。
関連論文リスト
- ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。
LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。
次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文 参考訳(メタデータ) (2026-01-15T07:54:32Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction [20.7755316818041]
内部推論プロセスは、ツールの使用とその後のアクションに大きな影響を与えます。
エージェントの思考における小さな偏差は、カスケード効果を誘発し、不可逆的な安全事故を引き起こす可能性がある。
Thought-Alignerはアクションを実行する前に、各ハイリスクな思考を即時に修正する。
修正された思考はエージェントに再導入され、より安全な後続の判断とツールの相互作用が保証される。
論文 参考訳(メタデータ) (2025-05-16T10:00:15Z) - AgentBreeder: Mitigating the AI Safety Risks of Multi-Agent Scaffolds via Self-Improvement [5.5068092331643035]
大規模言語モデル(LLM)をマルチエージェントシステムに置き換えることによって、複雑なタスクのパフォーマンスが向上することが多い。
我々は,足場上での多目的自己改善進化探索のためのフレームワークであるAgentBreederを紹介する。
論文 参考訳(メタデータ) (2025-02-02T11:40:07Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。