論文の概要: QuadSentinel: Sequent Safety for Machine-Checkable Control in Multi-agent Systems
- arxiv url: http://arxiv.org/abs/2512.16279v1
- Date: Thu, 18 Dec 2025 07:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.973136
- Title: QuadSentinel: Sequent Safety for Machine-Checkable Control in Multi-agent Systems
- Title(参考訳): QuadSentinel: マルチエージェントシステムにおけるマシンチェッカブル制御の逐次安全性
- Authors: Yiliu Yang, Yilei Jiang, Qunzhong Wang, Yingshui Tan, Xiaoyong Zhu, Sherman S. M. Chow, Bo Zheng, Xiangyu Yue,
- Abstract要約: textscQuadSentinelは、安全ポリシーをマシンチェック可能なルールにコンパイルする4エージェントガードである。
textscQuadSentinelは偽陽性を減らしながらガードレールの精度とルールリコールを改善する。
- 参考スコア(独自算出の注目度): 22.833567409552074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety risks arise as large language model-based agents solve complex tasks with tools, multi-step plans, and inter-agent messages. However, deployer-written policies in natural language are ambiguous and context dependent, so they map poorly to machine-checkable rules, and runtime enforcement is unreliable. Expressing safety policies as sequents, we propose \textsc{QuadSentinel}, a four-agent guard (state tracker, policy verifier, threat watcher, and referee) that compiles these policies into machine-checkable rules built from predicates over observable state and enforces them online. Referee logic plus an efficient top-$k$ predicate updater keeps costs low by prioritizing checks and resolving conflicts hierarchically. Measured on ST-WebAgentBench (ICML CUA~'25) and AgentHarm (ICLR~'25), \textsc{QuadSentinel} improves guardrail accuracy and rule recall while reducing false positives. Against single-agent baselines such as ShieldAgent (ICML~'25), it yields better overall safety control. Near-term deployments can adopt this pattern without modifying core agents by keeping policies separate and machine-checkable. Our code will be made publicly available at https://github.com/yyiliu/QuadSentinel.
- Abstract(参考訳): 大規模な言語モデルに基づくエージェントが、ツール、多段階計画、エージェント間メッセージで複雑なタスクを解決すると、安全性のリスクが生じる。
しかし、自然言語におけるデプロイ記述ポリシーは曖昧でコンテキスト依存であるため、マシンチェック可能なルールにはあまり対応せず、実行時の強制は信頼できない。
安全ポリシーをシーケントとして表現し,4エージェントガード(状態トラッカー,ポリシ検証器,脅威監視器,レフェリー)である \textsc{QuadSentinel} を提案し,これらのポリシーを,観測可能な状態に関する述語から構築されたマシンチェック可能なルールにコンパイルし,オンラインに強制する。
参照ロジックと効率的なトップ$$述語更新器は、チェックの優先順位付けと競合の階層的解決によってコストを低く保ちます。
ST-WebAgentBench (ICML CUA~'25) と AgentHarm (ICLR~'25) で測定された \textsc{QuadSentinel} は、偽陽性を低減しながらガードレールの精度とルールリコールを改善する。
ShieldAgent (ICML~'25)のような単一エージェントベースラインに対して、全体的な安全管理が向上する。
ポリシーを分離し、マシンチェック可能にすることで、コアエージェントを変更することなく、短期的なデプロイメントでもこのパターンを採用することができる。
私たちのコードはhttps://github.com/yyiliu/QuadSentinel.comで公開されます。
関連論文リスト
- Breaking and Fixing Defenses Against Control-Flow Hijacking in Multi-Agent Systems [7.558938027515112]
制御フローハイジャック攻撃は、マルチエージェントシステムのオーケストレーション機構を操作し、安全でないアクションを実行する。
制御フローの整合性と最小特権の原則に着想を得た新しい防衛法であるCrutValveを提案し,実装し,評価する。
論文 参考訳(メタデータ) (2025-10-20T08:02:51Z) - Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent [64.08182031659047]
我々は,MITRE ATT&CK Enterprise Matrix において,実世界の TTP に対応する最初のベンチマークである AdvCUA を提案する。
ReAct、AutoGPT、Gemini CLI、Cursor CLIの5つの主要なCUAを評価した。
結果は、現在のフロンティアCUAがOSのセキュリティ中心の脅威を十分にカバーしていないことを示している。
論文 参考訳(メタデータ) (2025-10-08T03:35:23Z) - Policy-as-Prompt: Turning AI Governance Rules into Guardrails for AI Agents [0.19336815376402716]
我々は、構造化されていない設計成果物(RD、TDD、コードなど)を検証可能なランタイムガードレールに変換する規制機械学習フレームワークを導入します。
Promptメソッドとしての私たちのポリシーは、これらのドキュメントを読み、ソースリンクされたポリシーツリーを構築するためのリスクコントロールです。
システムは最小限の特権とデータ最小化を強制するために構築される。
論文 参考訳(メタデータ) (2025-09-28T17:36:52Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - Progent: Programmable Privilege Control for LLM Agents [46.31581986508561]
本稿では,大規模言語モデルエージェントをセキュアにするための最初の特権制御フレームワークであるProgentを紹介する。
Progentは、潜在的に悪意のあるものをブロックしながら、ユーザタスクに必要なツールコールの実行をエージェントに制限することで、ツールレベルでのセキュリティを強化する。
モジュール設計のおかげで、Progentの統合はエージェント内部を変更せず、既存のエージェントの実装に最小限の変更しか必要としません。
論文 参考訳(メタデータ) (2025-04-16T01:58:40Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。