論文の概要: Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility
- arxiv url: http://arxiv.org/abs/2604.15579v1
- Date: Thu, 16 Apr 2026 23:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.676052
- Title: Symbolic Guardrails for Domain-Specific Agents: Stronger Safety and Security Guarantees Without Sacrificing Utility
- Title(参考訳): ドメイン特化剤の象徴的ガードレール--安全と安全の確保
- Authors: Yining Hong, Yining She, Eunsuk Kang, Christopher S. Timperley, Christian Kästner,
- Abstract要約: 高度なビジネス環境では、AIエージェントによる意図しないアクションは受け入れがたい害を引き起こす可能性がある。
トレーニングベースの方法や神経ガードレールといった既存の緩和策は、エージェントの信頼性を向上させるが、保証は提供できない。
我々は、AIエージェントの安全性とセキュリティを保証するための実践的な道として、象徴的なガードレールについて研究する。
- 参考スコア(独自算出の注目度): 17.915323061295467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents that interact with their environments through tools enable powerful applications, but in high-stakes business settings, unintended actions can cause unacceptable harm, such as privacy breaches and financial loss. Existing mitigations, such as training-based methods and neural guardrails, improve agent reliability but cannot provide guarantees. We study symbolic guardrails as a practical path toward strong safety and security guarantees for AI agents. Our three-part study includes a systematic review of 80 state-of-the-art agent safety and security benchmarks to identify the policies they evaluate, an analysis of which policy requirements can be guaranteed by symbolic guardrails, and an evaluation of how symbolic guardrails affect safety, security, and agent success on $τ^2$-Bench, CAR-bench, and MedAgentBench. We find that 85\% of benchmarks lack concrete policies, relying instead on underspecified high-level goals or common sense. Among the specified policies, 74\% of policy requirements can be enforced by symbolic guardrails, often using simple, low-cost mechanisms. These guardrails improve safety and security without sacrificing agent utility. Overall, our results suggest that symbolic guardrails are a practical and effective way to guarantee some safety and security requirements, especially for domain-specific AI agents. We release all codes and artifacts at https://github.com/hyn0027/agent-symbolic-guardrails.
- Abstract(参考訳): ツールを介して環境と対話するAIエージェントは、強力なアプリケーションを可能にするが、高度なビジネス環境では、意図しないアクションは、プライバシー侵害や財務損失など、許容できない害を引き起こす可能性がある。
トレーニングベースの方法や神経ガードレールといった既存の緩和策は、エージェントの信頼性を向上させるが、保証は提供できない。
我々は、AIエージェントの安全性とセキュリティを保証するための実践的な道として、象徴的なガードレールについて研究する。
当社の3部構成調査では,80件の最先端エージェントの安全性とセキュリティベンチマークを体系的にレビューし,評価したポリシーの特定,シンボルガードレールによるポリシー要件の保証に関する分析,および$τ^2$-Bench, CAR-bench, MedAgentBench上でのシンボルガードレールの安全性, セキュリティ, エージェント成功に対する影響の評価を行った。
85 %のベンチマークでは具体的なポリシーが欠如しており、その代わりに未特定のハイレベルな目標や常識に依存している。
規定されたポリシーの中で、74\%のポリシー要件は、しばしばシンプルで低コストなメカニズムを使用して、象徴的なガードレールによって実施することができる。
これらのガードレールは、エージェントユーティリティを犠牲にすることなく、安全とセキュリティを改善します。
全体としては、象徴的なガードレールは、特にドメイン固有のAIエージェントに対して、いくつかの安全性とセキュリティ要件を保証するための実用的で効果的な方法であることを示している。
すべてのコードとアーティファクトをhttps://github.com/hyn0027/agent-symbolic-guardrailsでリリースします。
関連論文リスト
- Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文 参考訳(メタデータ) (2025-10-06T18:09:02Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。