論文の概要: The Verifier Tax: Horizon Dependent Safety Success Tradeoffs in Tool Using LLM Agents
- arxiv url: http://arxiv.org/abs/2603.19328v1
- Date: Wed, 18 Mar 2026 16:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.800424
- Title: The Verifier Tax: Horizon Dependent Safety Success Tradeoffs in Tool Using LLM Agents
- Title(参考訳): 検証対象税: LLM エージェントを用いたツールによる水平依存型安全継承トレードオフ
- Authors: Tanmay Sah, Vishal Srivastava, Dolly Sah, Kayden Jordan,
- Abstract要約: 本研究では, 大規模言語モデル (LLM) エージェントを用いた多段階ツールにおいて, 実行時の安全でない動作に対する強制が, エンドツーエンドのタスクパフォーマンスに与える影響について検討する。
モデル依存相互作用の地平線(15~30ターン)を特定し、その結果を総合成功率(SR)、安全な成功率(SSR)、安全でない成功率(USR)に分解する。
- 参考スコア(独自算出の注目度): 1.3299507495084417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how runtime enforcement against unsafe actions affects end-to-end task performance in multi-step tool using large language model (LLM) agents. Using tau-bench across Airline and Retail domains, we compare baseline Tool-Calling, planning-integrated (TRIAD), and policy-mediated (TRIAD-SAFETY) architectures with GPT-OSS-20B and GLM-4-9B. We identify model dependent interaction horizons (15 to 30 turns) and decompose outcomes into overall success rate (SR), safe success rate (SSR), and unsafe success rate (USR). Our results reveal a persistent Safety Capability Gap. While safety mediation can intercept up to 94 percent of non-compliant actions, it rarely translates into strictly safe goal attainment (SSR below 5 percent in most settings). We find that high unsafe success rates are primarily driven by Integrity Leaks, where models hallucinate user identifiers to bypass mandatory authentication. Recovery rates following blocked actions are consistently low, ranging from 21 percent for GPT-OSS-20B in simpler procedural tasks to near zero in complex Retail scenarios. These results demonstrate that runtime enforcement imposes a significant verifier tax on conversational length and compute cost without guaranteeing safe completion, highlighting the critical need for agents capable of grounded identity verification and post-intervention reasoning.
- Abstract(参考訳): 本研究では, 大規模言語モデル (LLM) エージェントを用いた多段階ツールにおいて, 実行時の安全でない動作に対する強制が, エンドツーエンドのタスクパフォーマンスに与える影響について検討する。
Airline と Retail ドメイン間の Tau-bench を用いて,ベースラインの Tool-Calling と Planing-Integrated (TRIAD) と Policy-mediated (TRIAD-SAFETY) アーキテクチャを GPT-OSS-20B と GLM-4-9B で比較する。
モデル依存的相互作用の地平線(15~30ターン)を特定し,その結果を総合成功率(SR),安全成功率(SSR),不安全成功率(USR)に分解する。
この結果から, 持続的な安全能力のギャップが明らかとなった。
安全仲裁は94%の非準拠行為をインターセプトできるが、厳格に安全な目標達成(ほとんどの設定ではSSRが5%未満)に変換されることは滅多にない。
安全でない高い成功率は、モデルが必須認証をバイパスするためにユーザ識別子を幻覚させる、Integration Leaksによって主に引き起こされる。
ブロックされたアクションのリカバリ率は一貫して低く、より単純な手続きタスクではGPT-OSS-20Bの21パーセントから、複雑なリテールシナリオではほぼゼロである。
これらの結果から,会話の長さや計算コストに重要な検証対象税を課すことで,安全性を保証せず,同一性検証や介入後推論が可能なエージェントの必要性が強調された。
関連論文リスト
- Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation [2.102846336724103]
プロシージャ・アウェア・アセスメント(PAE)は、エージェント・プロシージャを構造化された観察として形式化するフレームワークである。
タウベンチにおける言語モデル(LLM)に基づくエージェントの評価を行った。
論文 参考訳(メタデータ) (2026-03-03T15:47:41Z) - Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents [68.20752678837377]
本稿では,単一ターン有害なタスクを多ターン攻撃シーケンスに変換する基本的分類法を提案する。
この分類法を用いて,マルチターンツール使用エージェントの安全性を評価する最初のベンチマークであるMT-AgentRiskを構築した。
トレーニング不要で、ツールに依存しない、自己探索型防御ツールであるToolShieldを提案する。
論文 参考訳(メタデータ) (2026-02-13T18:38:18Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。
LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。
次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文 参考訳(メタデータ) (2026-01-15T07:54:32Z) - DeepKnown-Guard: A Proprietary Model-Based Safety Response Framework for AI Agents [12.054307827384415]
大きな言語モデル(LLM)はますます顕著になり、重要なドメインへの信頼性の高いデプロイメントを厳しく制限しています。
本稿では,LLMを入力レベルと出力レベルの両方で保護する新しい安全応答フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T03:04:35Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。