論文の概要: TraceSafe: A Systematic Assessment of LLM Guardrails on Multi-Step Tool-Calling Trajectories
- arxiv url: http://arxiv.org/abs/2604.07223v1
- Date: Wed, 08 Apr 2026 15:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.61678
- Title: TraceSafe: A Systematic Assessment of LLM Guardrails on Multi-Step Tool-Calling Trajectories
- Title(参考訳): トレースセーフ:多段工具搬送軌道におけるLLMガードレールのシステム評価
- Authors: Yen-Shan Chen, Sian-Yao Huang, Cheng-Lin Yang, Yun-Nung Chen,
- Abstract要約: 安全ガードレールは、自然言語の応答には適しているが、その有効性は、多段階のツール使用軌跡の中では明らかにされていない。
このギャップに対処するために、中間軌道安全性を評価するために特別に設計された最初の包括的なベンチマークであるStructureSafe-Benchを紹介します。
- 参考スコア(独自算出の注目度): 20.868825285848196
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large language models (LLMs) evolve from static chatbots into autonomous agents, the primary vulnerability surface shifts from final outputs to intermediate execution traces. While safety guardrails are well-benchmarked for natural language responses, their efficacy remains largely unexplored within multi-step tool-use trajectories. To address this gap, we introduce TraceSafe-Bench, the first comprehensive benchmark specifically designed to assess mid-trajectory safety. It encompasses 12 risk categories, ranging from security threats (e.g., prompt injection, privacy leaks) to operational failures (e.g., hallucinations, interface inconsistencies), featuring over 1,000 unique execution instances. Our evaluation of 13 LLM-as-a-guard models and 7 specialized guardrails yields three critical findings: 1) Structural Bottleneck: Guardrail efficacy is driven more by structural data competence (e.g., JSON parsing) than semantic safety alignment. Performance correlates strongly with structured-to-text benchmarks ($ρ=0.79$) but shows near-zero correlation with standard jailbreak robustness. 2) Architecture over Scale: Model architecture influences risk detection performance more significantly than model size, with general-purpose LLMs consistently outperforming specialized safety guardrails in trajectory analysis. 3) Temporal Stability: Accuracy remains resilient across extended trajectories. Increased execution steps allow models to pivot from static tool definitions to dynamic execution behaviors, actually improving risk detection performance in later stages. Our findings suggest that securing agentic workflows requires jointly optimizing for structural reasoning and safety alignment to effectively mitigate mid-trajectory risks.
- Abstract(参考訳): 大規模言語モデル(LLM)が静的チャットボットから自律エージェントへと進化するにつれて、主要な脆弱性表面は最終出力から中間実行トレースへと変化する。
安全ガードレールは自然言語の応答によく見受けられるが、その有効性は多段階のツール使用軌跡の中で探索されていない。
このギャップに対処するために、中間軌道安全性を評価するために特別に設計された最初の包括的なベンチマークであるTraceSafe-Benchを紹介します。
セキュリティの脅威(インジェクション、プライバシリークなど)から、運用上の障害(幻覚、インターフェースの不整合など)まで、12のリスクカテゴリが含まれており、1,000以上のユニークな実行インスタンスを備えている。
13 LLM-as-a-guardモデルと7個の特別なガードレールによる評価は、3つの重要な結果をもたらす。
1) 構造的ブートネック: ガードレールの有効性は,セマンティック安全性のアライメントよりも,構造的データコンピテンス(JSON解析など)によって促進される。
パフォーマンスは構造化テキストベンチマーク(ρ=0.79$)と強く相関するが、標準的なジェイルブレイクの堅牢性とほぼゼロに近い相関を示す。
2) スケール以上のアーキテクチャ: モデルアーキテクチャはモデルサイズよりもリスク検出性能に大きく影響し, 軌道解析において, 汎用LLMは特別な安全ガードレールを一貫して上回っている。
3) 時間的安定性: 拡張軌道上での精度は回復力を維持する。
実行ステップの増加により、モデルが静的ツール定義から動的実行動作にピボットでき、後段のリスク検出のパフォーマンスが実際に向上する。
エージェントワークフローの確保には,構造的推論と安全アライメントを共同で最適化し,中軌道リスクを効果的に軽減する必要があることが示唆された。
関連論文リスト
- Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis [96.92417622318267]
ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。
リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。
1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
論文 参考訳(メタデータ) (2026-04-02T13:26:20Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety [2.7030665672026846]
大規模言語モデル(LLM)エージェントは、現実の結果を伴う複雑な環境でますます運用される。
信頼性に欠ける状況からLLMエージェントが認識・撤退するための、シンプルで効果的な行動機構として「クイッティング」を用いることを提案する。
論文 参考訳(メタデータ) (2025-10-18T13:22:19Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。